Využití dataminingu v oblasti hotelnictví



Podobné dokumenty
VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL.S R. O.

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL.S R.O.

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

(CELO) ŽIVOTNÍ HODNOTA ZÁKAZNÍKA

VYBRANÉ AKTIVITY ŘÍZENÍ VZTAHŮ SE ZÁKAZNÍKY

Dobývání znalostí z databází

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL.S R.O.

VÝZNAM A POZICE CRM V ŘÍZENÍ FIREM THE IMPORTANCE AND POSITION OF CRM IN FIRM MANAGEMENT. Jaroslav Novotný

Abstrakt. Klíčová slova. Abstract. Key words

Využití marketingové komunikace pro zvýšení konkurenceschopnosti sdružení MIVES. Bc. Markéta Matulová

VÝZKUM K CHOVÁNÍ MANAŽERŮ KE SPOLUPRACOVNÍKŮM THE REASEARCH ON BEHAVIOUR OF MANAGERS TOWARDS THEIR COLLEAGUES

Aplikace výsledků European Social Survey a Schwartzových hodnotových orientací v oblasti reklamy

Projekt implementace Balanced Scorecard na FaME UTB ve Zlíně. Lenka Pálková

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

TELEGYNEKOLOGIE TELEGYNECOLOGY

Sociální integrace osob se získaným zrakovým postižením. Martina Zdráhalová

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

SYSTÉM PRO AUTOMATICKÉ OVĚŘOVÁNÍ ZNALOSTÍ

Analýza využití strojních zařízení firmy EPCOS, s.r.o. v Šumperku. Martin Moravec

Aplikace metodiky hodnocení kvality systému elektronické výměny dat mezi podnikem a státní správou

Co si myslí česká populace o společenské odpovědnosti a o udržitelném rozvoji?

K výsledkům průzkumu zaměřeného na kvalitu podnikové informatiky

Výzkum komunikačního účinku propagace firmy GOTECH s.r.o. Eva Solařová

IBM SPSS Decision Trees

Právní formy podnikání v ČR

Competitive Intelligence

Univerzita Pardubice Fakulta ekonomicko-správní. Hodnocení použitelnosti webových geografických informačních systémů. Bc.

5 PŘÍPADOVÉ STUDIE REGIONŮ ŘEŠENÍ DISPARIT ROZVOJEM CESTOVNÍHO RUCHU

Abstrakt. Klíčová slova

Kvalita cigaretového tabáku v ČR- marketingové šetření se zaměřením na konečného spotřebitele

VYUŽITÍ SOFTWARU MATHEMATICA VE VÝUCE PŘEDMĚTU MATEMATIKA V EKONOMII 1

3D Vizualizace muzea vojenské výzbroje

Projektová dokumentace pro tvorbu internetových aplikací

Získávání znalostí z dat

HODNOCENÍ INOVAČNÍCH VÝSTUPŮ NA REGIONÁLNÍ ÚROVNI

KOMPARACE MEZINÁRODNÍCH ÚČETNÍCH STANDARDŮ A NÁRODNÍ ÚČETNÍ LEGISLATIVY ČR

Tvorba aplikace typu klient/server pomocí Windows Communication Foundation

HODNOCENÍ KVALITY A EFEKTIVITY E-LEARNINGOVÉHO VZDĚLÁVÁNÍ THE QUALITY AND EFFICIENCY EVALUATION OF E-LEARNING EDUCATION. Tomáš Maier, Ludmila Gallová

UNIVERZITA PARDUBICE. Fakulta elektrotechniky a informatiky. Informační systém realitní kanceláře Jan Šimůnek

Monitorování vývoje meteo situace nad ČR pomocí GPS meteorologie

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

Srovnání efektivity financování bydlení prostřednictvím hypotečního úvěru a úvěru ze stavebního spoření. Martina Langerová

VÝSLEDKY VÝZKUMU ÚVOD ZPRÁVY Z VÝZKUMU. Hana Poštulková. 62 // AULA roč. 19, 03-04/2011

Česká zemědělská univerzita v Praze

Projekt zlepšení systému zaměstnaneckých výhod ve společnosti MITAS a. s., výrobní úsek Zlín. Bc. Kamil Vyoral

VÝVOJOVÉ TENDENCE V MĚŘENÍ FINANČNÍ VÝKONNOSTI A JEJICH

připravili Filip Trojan, Pavel Macek,

Změny devizového kurzu ČNB a vývoj mezd Changes in the exchange rate of the CNB and wage developments

Význam a stanovení antioxidantů v čaji. Bc. Kateřina Zehnalová

Digitální marketing se zaměřením na export. Markéta Kabátová Web: ulab.rocks

Racionální spotřebitelské chování a vliv iracionality

VÝHODY SYSTÉMU ŘÍZENÍ VZTAHŮ SE ZÁKAZNÍKY ADVANTAGES OF CRM SYSTEM. Dagmar Škodová Parmová

Metodika komplexního hodnocení kvality DIGITÁLNÍ MÉDIA V ROCE 2015 PODLE REUTERS INSTITUTU

EFFECT OF MALTING BARLEY STEEPING TECHNOLOGY ON WATER CONTENT

Samovysvětlující pozemní komunikace

ANALÝZA STRUKTURY A DIFERENCIACE MEZD ZAMĚSTNANCŮ EMPLOEE STRUCTURE ANALYSIS AND WAGE DIFFERENTIATION ANALYSIS

Pražská vysoká škola psychosociálních studií

Cenová strategie vybraného hotelu

INTEGRATED APPROACH TO THE LANDSCAPE THE INDICATORS OF SUSTAINABLE DEVELOPMENT AS THE TOOL OF THE REGIONAL POLICY OF RURAL SPACE

Optimalizace systému skladového hospodářství ve společnosti DURA Automotive Systems CZ, s. r. o. Bc. Kateřina Cáderová

VLIV NEURČITOSTI, NEJASNOSTI, NEJISTOTY A SLOŽITOSTI NA ROZHODOVÁNÍ ORGANIZACÍ

PRAXE A PŘÍNOSY INDEXOVÉHO BENCHMARKINGU PRACTISE AND BENEFITS OF INDEX BENCHMARKING

Uživatelem řízená navigace v univerzitním informačním systému

RESEARCH OF ANAEROBIC FERMENTATION OF ORGANIC MATERIALS IN SMALL VOLUME BIOREACTORS

Czech Technical University in Prague DOCTORAL THESIS

kupi.cz Michal Mikuš

Executive DBA - Marketing Doctor of Business Administration

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

BARIÉRY VSTUPU V ODVĚTVÍ PRODUKCE JABLEK V ČESKÉ REPUBLICE BARRIERS TO ENTRY IN THE CZECH APPLES PRODUCTION INDUSTRY.

APLIKACE INTERNETOVÉHO MARKETINGU V KULTUŘE

ELEKTRONICKÉ STUDIJNÍ OPORY PRO VÝUKU ZDRAVOTNÍCH SESTER A PORODNÍCH ASISTENTEK ELECTRONIC STUDY SUPPORT FOR EDUCATION OF NURSES AND MIDWIVES

Social Media a firemní komunikace

SUPERVIZE JAKO NÁSTROJ DUŠEVNÍ HYGIENY U STUDENTŮ SOCIÁLNÍ PRÁCE NA ZDRAVOTNĚ SOCIÁLNÍ FAKULTĚ JIHOČESKÉ UNIVERZITY V ČESKÝCH BUDĚJOVICÍCH

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.


OPERAČNÍ RIZIKA V PROCESU POSKYTOVÁNÍ BANKOVNÍCH SLUŽEB

Marketingový plán firmy XYZ. Tereza Řiháčková

ZKVALITNĚNÍ SLUŽEB HOTELU CENTRO SPOJENÉ S PŘECHODEM NA VYŠŠÍ STUPEŇ HOTELOVÉ KLASIFIKACE

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

SPOTŘEBITELSKÝ KOŠ CONSUMER BASKET. Martin Souček

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R.O.

Ing. Pavel Rosenlacher

AIC ČESKÁ REPUBLIKA CZECH REPUBLIC

Výuka softwarového inženýrství na OAMK Oulu, Finsko Software engineering course at OAMK Oulu, Finland

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R.O. Bc. Karolina Králíčková

Unstructured data pre-processing using Snowball language

Analýza vzdělávacích potřeb ve společnosti Wüstenrot. Dana Syslová

LOGOMANUÁL / LOGOMANUAL

VYUŽITÍ MAPOVÉ TVORBY V METEOROLOGII A KLIMATOLOGII

SEIZMICKÝ EFEKT ŽELEZNIČNÍ DOPRAVY ÚVODNÍ STUDIE

Výzkum zaměřený na domácí cestovní ruch Vyhodnocení etapy zima 2010

Dobrovolná bezdětnost v evropských zemích Estonsku, Polsku a ČR

Vzdálené řízení modelu připojeného k programovatelnému automatu

Životopis. Osobní údaje. Vzdělání. Zaměstnání. Řešené projekty. Projekty mimo univerzitu. Akademické stáže. doc. Ing. Romana Čižinská, Ph.D.

Analýza cenové politiky v multikině Golden Apple Cinema. Aneta Vyorálková

Strategie modrého oceánu

METODIKA ANALÝZY ODMĚŇOVÁNÍ ZAMĚSTNANCŮ ZPRACOVATELSKÉHO PODNIKU METHODOLOGY OF EMPLOYEE REWARDING ANALYSIS IN A PRODUCER ENTERPRISE

Transkript:

Využití dataminingu v oblasti hotelnictví Diplomová práce Bc. Štěpán Chalupa Vysoká škola hotelová v Praze 8, spol. s r. o. katedra Hotelnictví Studijní obor: Management hotelnictví a lázeňství Vedoucí diplomové práce: doc. RNDr. Zdena Lustigová, Csc. Datum odevzdání diplomové práce: 2015-05-07 E-mail: stepanchalupa@centrum.cz Praha 2015

Master s Dissertation Datamining in hotel industry Bc. Štěpán Chalupa The Institute of Hospitality Management in Prague 8, Ltd. Department of Hospitality Management Major: Hotel and Spa Management Thesis Advisor: doc. RNDr. Zdena Lustigová, Csc. Date of Submission:2015-05-07 E-mail: stepanchalupa@centrum.cz Praha 2015

Čestné prohlášení Prohlašuji, že jsem diplomovou práci na téma Využití dataminingu v oblasti hotelnictví zpracoval samostatně a veškerou použitou literaturu a další podkladové materiály, které jsem použil, uvádím v seznamu použitých zdrojů a že svázaná a elektronická podoba práce je shodná. V souladu s 47b zákona č. 111/1998 Sb., o vysokých školách v platném znění souhlasím se zveřejněním své diplomové práce, a to v nezkrácené formě, v elektronické podobě ve veřejně přístupné databázi Vysoké školy hotelové v Praze 8, spol. s r. o. V Praze dne 07. 05. 2015..... Štěpán Chalupa

Poděkování Rád bych touto cestou poděkoval doc. RNDr. Zdeně Lustigové, CSc., která mě během psaní této diplomové práce odborně vedla a poskytovala mi rady, zlepšovací návrhy a komentáře, díky kterým jsem byl schopný tuto práci zdárně dokončit. Dále bych rád poděkoval všem bývalým kolegům ze společnosti Vienna International Hotels & Resorts za poskytované informace, názory a odborné komentáře, které jsem získal během své odborné stáže v obchodním oddělení této společnosti. V neposlední řadě bych chtěl poděkovat celé své rodině, která mě podporovala během celého mého studia a tvořila tak pevný základ, na kterém jsem mohl postavit nejen své studium, ale i tvorbu této práce.

Abstrakt CHALUPA, Štěpán. Využití dataminingu v oblasti hotelnictví. [Diplomová práce] Vysoká škola hotelová v Praze 8, spol. s r. o. Praha: 2015. 85 stran. Zákaznická hodnocení jsou v současné době velmi důležitým informačních zdrojem. Cílem této diplomové práce je stanovení možností a limitů použitelnosti dataminingového nástroje IBM SPSS Statistics a textminingového nástroje STATISTICA pro analyzování volně dostupných zákaznických hodnocení pražských hotelů Vienna International Hotels & Resorts na serverech Booking.com a TripAdvisor.com. Hlavní metodu zpracování této práce byla explorační analýza dat, protože současná literatura neumožňuje tvorbu ověřitelných hypotéz. Součástí teoretické části práce je rešerše již publikované literatury v oblasti hotelnictví vztahující se aplikaci textmining a dataminingu. Aplikací vybraných nástrojů bylo možné dat sebraná z vybraných zdrojů sumarizovat, identifikovat v nestrukturovaných datech klíčová slova a ty následně porovnat s klíčovými slovy charakterizující jednotlivé hotely. Součástí analytické části je náznak shlukové analýzy, která nemohla být provedena vzhledem k velkému počtu chybějících dat. Shlukovou analýzu by bylo možné aplikovat na data z PMS a dalších systému, ve kterých jsou data v kompletní podobě. Jak datamining, tak textmining májí poměrně významné limity pro aplikaci v hotelnictví, ale pro zlepšení vztahu se zákazníky a jejich lepší identifikaci oba přístupy prokazují velký potenciál. Pro lepší aplikaci by bylo potřebné vybrat modernější nástroje, hlavně v oblasti textminingu. Klíčová slova: dataminingu, textmining, zákaznická hodnocení, explorační analýza dat, statistika, Word of Mouth.

Abstract CHALUPA, Štěpán. Datamining in hotel industry [Master s Dissertation]. The Institute of Hospitality Management in Prague 8, Ltd. Prague: 2015. 85 pages. Customer reviews are a very important source of information. The aim of this thesis is to determine the possibilities and limits of application of datamining tools IBM SPSS Statistics and STATISTICA textmining tools for analyzing freely available customer reviews of Prague hotels Vienna International Hotels & Resorts from servers Booking.com and TripAdvisor.com. The main selected method of this work was exploratory data analysis, because the current literature does not allow the creation of verifiable hypotheses. The theoretical part of the work is research of already published literature in the field of hospitality related to textmining and data mining application. During application of selected instruments it was possible to summarize collected data from selected sources, identify keywords in unstructured data and then compare those keywords with characteristics of individual hotels. Part of the analysis is a hint of cluster analysis, which could not be performed due to the large number of missing data. Cluster analysis could be applied on data from PMS and other systems where data are in complete form. Datamining and textmining have quite significant limits for application in the hotel industry. On the other hand using these tools can be used to improve customer relations and their better identification. Both approaches show great potential. For better application would be necessary to choose more advanced tools, especially in the area of textmining. Key words: dataminingu, textmining, customer reviews, exploratory data analysis, statistics, Word of Mouth.

Obsah Úvod... 12 1. Teoretická část... 14 1.1. Význam zákaznická hodnocení pro zákazníky a provozovatele ubytovacích zařízení... 14 1.1.1. Vliv ewomu na zákazníka... 15 1.1.2. Význam zákaznických hodnocení pro provozovatele hotelu... 17 1.1.2.1. Reputation management... 17 1.1.2.2. Ekonomické dopady zákaznických hodnocení... 18 1.1.2.3. Dopady na SEO... 19 1.2. Využití dataminingu a textminingu v hotelnictví... 19 1.2.1. Datamining... 20 1.2.1.1. Rozdíl mezi OLAP a dataminingem... 21 1.2.1.2. Modelové procesy dataminingu... 21 1.2.1.3. Přehled současné literatury vztahující se k aplikaci dataminingu v hotelnictví 23 1.2.2. Textmining... 25 1.2.2.1. Multidisciplinární struktura textminingu... 25 1.2.2.2. Natural language processing (NLP)... 27 1.2.2.3. Rozdíly a možné propojení textminingu a dataminingu... 28 1.2.2.4. Modelový proces textminingu... 29 1.2.2.5. Přehled současné literatury vztahující se k aplikace textminingu hotelnictví. 30 2. Analytická část... 32 2.1. Výběr zdrojových serverů pro sběr zákaznických hodnocení... 32 2.1.1. Zdroj 1: Rezervační server Booking.com... 32 2.1.1.1. Struktura zákaznického hodnocení a sběr dat... 33 2.1.2. Zdroj 2: Recenzní server TripAdvisor.com... 35 2.1.2.1. Struktura hodnocení a sběr dat... 36 2.2. Výběr ubytovacích zařízení pro sběr dat... 37 2.2.1. Popis vybraných hotelů... 38 2.2.1.1. andel's Hotel Prague... 38 2.2.1.2. angelo Hotel Prague... 38 2.2.1.3. Chopin Hotel Prague... 39 2.2.1.4. Diplomat Hotel Prague... 39 2.3. Úprava a zpracování sebraných dat... 39 2.3.1. Indexace slovních hodnocení programem STATISTICA... 40 2.4. Sumarizace a analýza dat - Booking.com... 43

2.4.1. Shluková analýza dat... 43 2.4.2. Sumarizace sebraných dat... 46 2.4.3. Analýza nestrukturovaných dat a abnormálních hodnocení... 53 2.4.3.1. Analýza slovních a abnormálních hodnocení hotelu andel s Hotel Prague... 55 2.4.3.2. Analýza slovních a abnormálních hodnocení hotelu angelo Hotel Prague... 56 2.4.3.3. Analýza slovních a abnormálních hodnocení hotelu Chopin Hotel Prague... 57 2.4.3.4. Analýza slovních a abnormálních hodnocení hotelu Diplomat Hotel Prague.. 59 2.4.4. Diskuze... 60 2.5. Sumarizace a analýza dat - TripAdvisor.com... 61 2.5.1. Shluková analýza dat... 61 2.5.2. Sumarizace sebraných dat... 62 2.5.3. Analýza nestrukturovaných dat a abnormálních hodnocení... 68 2.5.3.1. Analýza slovních a abnormálních hodnocení hotelu andel s Hotel Prague... 69 2.5.3.2. Analýza slovních a abnormálních hodnocení hotelu angelo Hotel Prague... 70 2.5.3.3. Analýza slovních a abnormálních hodnocení hotelu Chopin Hotel Prague... 71 2.5.3.4. Analýza slovních a abnormálních hodnocení hotelu Diplomat Hotel Prague.. 73 2.5.4. Diskuze... 74 3. Návrhová část... 75 3.1. Servery Booking.com a TripAdvisor.com jako zdroje dat... 75 3.2. Sběr dat... 76 3.3. Využití dataminingu a dataminingové nástroje IBM SPSS Statistics v hotelnictví... 76 3.3.1. Limity využití dataminingu v hotelnictví... 77 3.4. Využití textminingu a textminingového nástroje STATISTICA v hotelnictví... 78 3.4.1. Limity využití textminingu v hotelnictví... 79 Závěr... 80 Literatura... 82

Seznam tabulek Tabulka 1 Struktura dat v zákaznickém hodnocení ze serveru Booking.com... 35 Tabulka 2 Struktura dat zákaznického hodnocení ze serveru TripAdvisor.com... 37 Tabulka 3 Indexovaná slovní hodnocení textminingovým nástrojem STATISTICA... 40 Tabulka 4 Seznam indexovaných slov včetně jejich četností v datovém souboru... 41 Tabulka 5 Ukázku word- matrixu indexovaných zákaznických hodnocení... 42 Tabulka 6 Absolutní a relativní četnost zákaznických hodnocení podle zdrojové země hodnotitele (Booking.com)... 49 Tabulka 7 Seznam indexovaných pozitivních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com)... 53 Tabulka 8 Seznam indexovaných negativních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com)... 54 Tabulka 9 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu andel s Hotel Prague (Booking.com)... 55 Tabulka 10 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu angelo Hotel Prague (Booking.com)... 57 Tabulka 11 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Chopin Hotel Prague (Booking.com)... 58 Tabulka 12 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Diplomat Hotel Prague (Booking.com)... 59 Tabulka 13 Absolutní a relativní četnost zákaznických hodnocení podle zdrojové země hodnotitele (TripAdvisor.com)... 64 Tabulka 14 Seznam stručných a podrobných indexovaných slovních hodnocení pražských hotelů Vienna International Hotels & Resorts (TripAdvisor.com)... 68 Tabulka 15 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu andel s Hotel Prague (TripAdvisor.com)... 69 Tabulka 16 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu angelo Hotel Prague (TripAdvisor.com)... 71 Tabulka 17 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu Chopin Hotel Prague (TripAdvisor.com)... 72 Tabulka 18 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu Diplomat Hotel Prague (TripAdvisor.com)... 73

Seznam grafů Graf 1 Segmentace zákaznických hodnocení podle volených štítků (Booking.com)... 44 Graf 2 Segmentace hodnocení na základě slovních hodnocení (Booking.com)... 45 Graf 3 Pravděpodobnost zanechání slovního hodnocení pro jednotlivé zákaznické segmenty (Booking.com)... 46 Graf 4 Počet hodnocení jednotlivých hotelů (Booking.com)... 46 Graf 5 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (Booking.com)... 47 Graf 6 Počet zákaznických hodnocení v jednotlivých jazycích (Booking.com)... 48 Graf 7 Vývoj počtu hodnocení ruských hostů v časovém období leden 2014 leden 2015 (Booking.com)... 50 Graf 8 Vývoj počtu hodnocení ve vybraných hotelech v období říjen 2013 leden 2015 (Booking.com)... 51 Graf 9 Počet jednotlivých číselných hodnocení v datovém souboru (Booking.com)... 51 Graf 10 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (Booking.com)... 52 Graf 11 Segmentace zákaznických hodnocení podle volených štítků (TripAdvisor.com)... 61 Graf 12 Počet hodnocení jednotlivých hotelů (TripAdvisor.com)... 62 Graf 13 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (TripAdvisor.com)... 63 Graf 14 Počet zákaznických hodnocení v jednotlivých jazycích (TripAdvisor.com)... 64 Graf 15 Vývoj počtu hodnocení ve vybraných hotelech v období červenec 2013 leden 2015 (TripAdvisor.com)... 65 Graf 16 Počet jednotlivých číselných hodnocení v datovém souboru (TripAdvisor.com)... 66 Graf 17 Rozložení celkových číselných hodnocení na serveru TripAdvisor.com (vlevo)... 67 Graf 18 Rozložení celkových číselných hodnocení na serveru Booking.com (vpravo)... 67 Graf 19 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (TripAdvisor.com).. 67

Abecední seznam použitých zkratek ADR CRIPS-DM ewom OLAP OTA PMS PR RevPAR SEMMA SEO WOM Average Daily Rate Cross Industry Standard for Data Mining Electronic Word of Mouth Online Analytical Processing Online Travel Agent Property Management System Public Relations Revenue Per Available Room Sample, Explore, Modify, Model, Assess Search Engine Optimalization Word of Mouth

Úvod Zákaznická hodnocení jsou důležitým zdrojem informací nejen pro potenciální zákazníky, ale také pro hotelové subjekty. S rozvojem informačních technologií a stále intenzivnějším využíváním internetu se zákaznická hodnocení přesunula z reálných konverzací na internetové servery. Mají tak mnohem větší dosah a vliv. Tato hodnocení jsou agregována na rezervačních portálech, tzv. Online Travel Agents (např. Booking.com), a recenzních portálech (např. TripAdvisor.com). Tyto portály jsou hojně využívány zákazníky, ale už ne tak často samotnými provozovateli ubytovacích zařízení. Aplikací dataminingových a textminingových nástrojů je možné z těchto dat získat důležité informace o silných a slabých stránkách hotelu, případně klíčové informace o svých zákaznících. Hlavním cílem této diplomové práce je stanovení možností a limitů použitelnosti dataminingového nástroje IBM SPSS Statistics a textminingového nástroje STATISTICA pro analyzování volně dostupných zákaznických hodnocení pražských hotelů Vienna International Hotels & Resorts na serverech Booking.com a TripAdvisor.com. Tato diplomová práce je rozdělena do tří hlavních částí. První část, teoretická, je zaměřena na důležitost zákaznických hodnocení při rozhodovacím procesu zákazníka a jejich vlivu na potenciální zákazníky. Zákaznická hodnocení na internetu jsou označovány jako ewom a podle studie o reklamě společnosti The Nielsen Company (The Nielsen Company, 2013) jsou druhým nejdůvěryhodnějším zdrojem informací pro zákazníky. Proto hrají významnou roli při volbě ubytovacích zařízení. Tato hodnocení jsou důležitá i pro provozovatele ubytovacích zařízení, protože poskytují zpětnou vazbu od zákazníků, hodnocení kvality a rozsahu služeb. Dále obsahují klíčová slova charakterizující dané ubytovací zařízení z pohledu zákazníka, která se dají využít pro Search Engine Optimalization (SEO). Zákaznická hodnocení mají vliv i na ekonomické ukazatele ubytovacího zařízení (Anderson, 2012) a ovlivňují jeho cenovou politiku, ADR, obsazenost, RevPAR a další. Součástí teoretické části je popsání základních principů dataminingu a textminingu a všeobecně uznávaných procesních vzorců CRISP-DM a SEMMA, které slouží jako návod pro správnou implementaci těchto nástrojů. Nedílnou součástí je přehled dosud publikované literatury se zaměřením na oblast hotelnictví. Vzhledem k tomu, že se jedná o velmi mladou a rozvíjející se technologii, je tento přehled velmi úzký. Na teoretickou část navazuje praktická aplikace dataminingového nástroje IBM SPSS Statistics a textminingové modelu nástroje STATISTICA na data sesbíraná ze serverů Booking.com a TripAdvisor.com. Tato data byla manuálně sesbírána do předem připravené 12

struktury tak, aby bylo možné jejich rychlé a přesné zpracování. Díky zvoleným nástrojům bylo možné sesbíraná data analyzovat a zjistit tak možnosti a limity použití těchto nástrojů v oblasti hotelnictví. Na začátku analytické části je popsán proces sběru dat, jejich úpravy a zvolená datová struktura. Také důvod výběru pražských hotelů Vienna International Hotels & Resorts a jejich krátký popis. Data jsou analýzována odděleně pro vybrané servery, protože data obsažená v zákaznických hodnoceních na těchto serverech nejsou shodná a mohlo by tak dojít ke zkreslení výsledků analýz. Pro analyzování strukturovaných dal byl vybrán software IBM SPSS Statistics a pro základní analýzu nestrukturovaných dat byl vybrán software STATISTICA. Třetí částí je část návrhová, ve které jsou shrnuty všechny podstatné informace získané během rešerše základmí literatury vztahující se k aplikaci dataminingu a textminingu v oblasti hotelnictví. Dále možnosti využití dalších zdrojů zákaznických hodnocení pro získávání důležitých informací a limity nejen použitých dataminingových a textminingových nástrojů v hotelnictví. Hlavní metodou dosažení stanoveného cíle byla zvolena explorační analýza volně dostupných dat ze serverů Booking.com a TripAdvisor.com, která je doplněna o rešerši publikované literatury vztahující se k vlivu zákaznických hodnocení na zákazníka a činnost hotelu, použitelnosti dataminingových a textminingových nástrojů pro analýzu dat v oblasti hotelnictví a základním principům dataminingu a textminingu. Jako hlavní informační zdroje byly vybrány studie společnosti TripAdvisor LLC TripAdvisor for business. 24 insights to shape your TripAdvisor strategy, studie Chrise K. Andersona The Impact of Social Media on Lodging Performance, studie společnosti The Nielsen Company Global Trust in Advertising and Brand Messages, kniha The Text Mining Handbook autorů Ronena Feldmana a Jamese Sangera a kniha Data Mining and Analysis: Fundamental Concepts and Algorithms autorů Mohammeda J. Zakiho a Wagnera Meira Jr. 13

1. Teoretická část Hotelnictví je oborem, které je velmi silně vázáno na spokojenost svých zákazníků. O této spokojenosti se mohou hotely dozvědět přímo od svých zákazníků během nebo po skončení jejich pobytu nebo ze zákaznických hodnocení. Důležitou součástí práce s těmito hodnoceními je schopnost dokázat z těchto dat získat srozumitelné a užitečné informace. Proto se v této teoretické části zaměříme na to, jaký vliv mají zákaznická hodnocení na budoucí zákazníky a současně i na provozovatele ubytovacích zařízení. Pro získání informací z těchto dat byly vybrány dataminingové a textminingové nástroje, a proto je potřebné popsat tyto analytické metody a jejich minulou aplikace v hotelnictví. 1.1. Význam zákaznická hodnocení pro zákazníky a provozovatele ubytovacích zařízení Rozvoj informačních technologií a internetu na konci 20. století přinesl značné změny v procesu získávání informací, spotřebního chování a rozhodování zákazníků. Ti již nejsou omezeni v informačních zdrojích pouze na profesionální hodnocení a recenze odborných recenzentů, informace předávané hotely a další převážně tištěné materiály (Ong, 2012) a přímá doporučení svých známých a členů rodiny. Přímá, osobní, doporučení jsou marketéry označována jako WOM, tedy Word of Mouth. Jsou to nekomerční konverzace o značkách, produktech a službách (Anderson, 1998) (Mann, a další, 2013). Internet a jeho neustálé zjednodušování a rozvoj umožňuje každému uživateli vytvářet vlastní obsah na blozích, diskuzních fórech a sdílet svá videa a fotografie (Gretzel, 2006). Tento obsah má díky internetu a jeho rozvoji stále větší dosah a publikum. Názory, postoje a zkušenosti jednotlivých uživatelů jsou proto mnohem dostupnější a lépe a rychleji se šíří. Tyto informace souhrnně označujeme jako ewom. Význam ewomu stále roste. Dokazují to počty zákaznických hodnocení na stránkách OTAs a počty konverzací na diskuzních fórech. Tato hodnocení a diskuze slouží jako velmi důležitý informační zdroj potenciálním zákazníkům. Jsou psána uživatelským jazykem a popisují všechny produkty z pohledu zákazníka. Navíc je zákazníci vnímají jako užitečnější, aktuálnější a důvěryhodnější informace než informace poskytované podnikateli, v tomto případě hotely (Gretzel, 2008). Podle Paola Torchia (Torchio, 2011) téměř 75 % lidí nevěří informacím, které o sobě poskytují podniky. Dle studie o důvěryhodnosti reklamy (The Nielsen Company, 2013) věří WOMu téměř 84 % lidí a ewomu 68 % lidí. Z tohoto pohledu jsou sdílené informace a zkušenosti velmi důvěryhodné a platí i to, že zákazník považuje za důvěryhodnější ty informace, u kterých zná jejich zdroj a může si je přímo propojit s 14

konkrétní osobou. Důvěryhodnost ewomu je proto nižší, a to hlavně kvůli anonymitě zdroje. 1.1.1. Vliv ewomu na zákazníka Většina hodnocení v oblasti hotelnictví, nebo šířeji v oblasti hospitality, spojuje jak kvalitativní, tak kvantitativní prvky. Tedy slovní hodnocení a číselná hodnocení převážně na škále od 1 do 5 (TripAdvisor.com) nebo od 1 do 10 (Booking.com). Z pohledu zákazníka jsou mnohem lepším informačním zdrojem slovní hodnocení, která přinášejí konkrétní informace, a zákazníci je důkladněji zkoumají a čtou, případně na ně reagují (Chevalier, a další, 2006) (Ong, 2012). Z pohledu použitého jazyka má největší vliv na rozhodování rodný jazyk potenciálního zákazníka, ale vlivem globalizace a internacionalizace se do popředí pomalu dostává angličtina, jako univerzální komunikační jazyk. Vliv na rozhodování má i sentiment sdělovaných informací. Většina portálů nabízí odlišení pozitivních a negativních hodnocení. Toto rozdělení má pomoci potenciálním zákazníkům najít silné a slabé stránky hotelu. Ne vždy jsou ale pozitivní hodnocení opravdu pozitivní a negativní hodnocení negativní. Velmi často se v kolonce negativní hodnocení objevují fráze jako vše bylo v pořádku a podobné. Z toho je patrné, že množství negativních hodnocení reálně neodpovídá počtu negativních zkušeností se službami a hotelem jako takovým. Vlivu negativních a pozitivních hodnocení na rozhodování zákazníka se věnovalo velké množství autorů (Downey, a další, 2006) (Ong, 2012). Výsledky většiny studií se přikláněly k tomu, že jak negativní, tak pozitivní hodnocení mají víceméně stejný vliv na rozhodování zákazníka. Což potvrzuje i Linda Fox (Fox, 2012), která poukazuje na studii společnosti PhoCusWright pro Tripadvisor LLC, která říká, že 59 % lidí ignoruje extrémně negativní hodnocení a pouze 5 % lidí tato hodnocení přímo vyhledává. Oproti tomu však stojí osobní zkušenost autora této práce a výstupy dalších studií. Z nich je patrné, že z pohledu zákazníka je mnohem jednodušší vyjádřit extrémní nespokojenost než extrémní spokojenost, a proto mají extrémně negativní hodnocení ( Nikdy se sem nevrátím nebo Naprosto otřesný hotel ) větší dopad než hodnocení extrémně pozitivní ( Perfektní hotel aj.). Ze studie vnímání značky (Lee, 2009) je patrné, že extrémně negativní pohled a zkušenost se značkou má mnohem větší váhu, než mírná nespokojenost nebo dokonce spokojenost. Vliv negativních hodnocení na sociálních sítích (Twitter, Facebook, Youtube apod.) popisuje studie Convergys Corp. (Shannon, 2009), která říká, že jeden tweet nebo recenzi si zobrazí v průměru 45 dalších uživatelů a téměř dvě třetiny z nich by negativní hodnocení produktu nebo služby odradilo od jeho koupě. 15

Vzhledem k těmto rozdílným pohledům je vhodné minimalizovat počet extrémně negativních zkušeností svých hostů, přeneseně počet negativních hodnocení, která mohou, ale nemusí, mít vliv na budoucí zákazníky. Společnost Tripadvisor LLC dlouhodobě sleduje a analyzuje svoji komunitu pomocí pravidelných studií za pomoci společnosti PhoCusWright. Vhledem k velikosti uživatelské komunity se dají tyto studie považovat za relevantní. Z poslední studie (TripAdvisor LLC, 2014) vyplývají následující zjištění: 53 % cestovatelů si nezarezervuje pokoj bez čtení online recenzí, 73 % cestovatelů sleduje při rozhodování nejel recenze, ale i fotografie ostatních uživatelů, 83 % cestovatelů potvrdilo, že se díky recenzím ujišťují ve své volbě, 80 % cestovatelů přikládá větší váhu novějším recenzím, 80 % cestovatelů přečte 6 až 12 recenzí před výběrem hotelu. Této studie se zúčastnilo 12 225 uživatelů portálu TripAdvisor.com a proběhl v prosinci roku 2013. Ze studie společnosti Laterooms.com (Davies, 2012), která oslovila 1 366 respondentů, vyplývá, že 40 % lidí nerezervuje hotelové pokoje bez čtení recenzí předchozích hostů. Studie dále zmiňuje postoj respondentů k falešným hodnocením a uvádí, že 45 % lidí nepřikládá falešným hodnocením žádnou váhu a nesnaží se odlišovat falešná a pravdivá hodnocení. Z hlediska sentimentu hodnocení pouze 28 % respondentů nečte a nepřikládá váhu extrémně negativním nebo pozitivním hodnocením. Což pouze potvrzuje nutnost minimalizace negativních zkušeností hotelových hostů. Ve studii je dále velmi zajímavý údaj vztahující se k obsahu hodnocení. Více než 90 % respondentů by si nezabookovalo hotel, v jehož hodnoceních se nachází špinavý pokoj. Všechna předchozí zjištění popisují vliv hodnocení na rozhodovací proces potenciálních zákazníků. Velmi málo se ale průzkumy zaměřují na motivaci, kterou mají zákazníci sdílející své zkušenosti a názory. V poslední zmíněné studii je problém motivace zohledněn. Hlavním motivem pro zanechání recenze na internetovém portálu je úroveň služeb a produktu. Polovina respondentů by napsala hodnocení po negativní zkušenosti během svého pobytu. Důležitější fakt je, že pozitivní hodnocení by zanechalo 70 % respondentů. Stejně tak se málo studií zabývalo pravdivostí zákaznických hodnocení. Za falešné recenze se označují recenze od uživatelů, kteří s daným hotelem nemají žádné osobní 16

zkušenosti, dále recenze od fiktivních uživatelů a z fiktivních účtů, které jsou zřízené jednotlivými ubytovacími zařízeními. Je třeba zmínit další skupinu falešných hodnocení a to hodnocení, které píší skuteční uživatelé, kteří mají s daným hotelem osobní zkušenost, ale jsou ovlivněni vnějšími vlivy (sleva za dobré hodnocení). Studie zaměřená na chování zákazníků na sociálních sítích ve vztahu k hotelům řetězce Sheraton odhalily vliv pohlaví na čestnost recenzentů při psaní recenzí (White Plains, 2010). Pouze 17 % žen přiznalo, že jsou zcela upřímné a čestné při psaní uživatelských recenzí. Tuto upřímnost při psaní recenzí přiznalo 48 % mužů. 1.1.2. Význam zákaznických hodnocení pro provozovatele hotelu V předchozí části byl zobrazen vliv zákaznických hodnocení na rozhodování zákazníků při výběru produktu (včetně ubytování), z kterého zcela jasně vyplývá, že zákaznická hodnocení hrají velkou roli při rozhodování o výběru hotelu. Na první pohled se jedná o komunikaci mezi současnými a potenciálními zákazníky. Vzhledem k dostupnosti těchto recenzí mohou ale sloužit i jako komunikační kanál mezi zákazníky a hotely (formou zpětné vazby). Mnoho OTAs nabízí svým obchodním partnerům (hotelům) možnost reagovat na jednotlivá hodnocení, ať již kladná, či záporná. Z tohoto pohledu se nejedná pouze o zpětnou vazbu, ale nový druh vzájemné komunikace. Zákaznická hodnocení může hotel získávat ze čtyř hlavních zdrojů. Prvním zdrojem těchto hodnocení jsou dotazníky spokojenosti umisťované na hotelových pokojích, které mají zákazníci možnost vyplnit během svého pobytu. Pro vyplnění těchto dotazníků musí mít zákazník extrémně pozitivní nebo negativní motiv. Takto sesbíraná data často nebývají analyzována a mnoho hotelů je i přes vlastní sběr nijak nevyužívá. Druhým zdrojem hodnocení jsou přímé rozhovory se zákazníky. Tato varianta se využívá spíše při řešení problémů, které není schopný a kompetentní řešit nikdo z řadových zaměstnanců. Jedná se o bezprostřední reakce hostů, které vyžadují bezprostřední řešení. Problematikou řešení problémů a reklamací v hotelnictví se zabývá mnoho hoteliérů i odborníků z jiných profesí. Třetí možností je přímé elektronické kontaktování hostů se žádostí o vyplnění elektronických dotazníků. Návratnost těchto dotazníků je velmi malá a slouží převážně pro udržení kontaktu s loajálními zákazníky. Poslední možností je využívání OTAs a porovnávacích portálů, které umožňují hostům zanechat osobní hodnocení pobytu a hotelu. 1.1.2.1. Reputation management Reputation management je v hotelnictví poměrně mladou oblastí řízení vztahu se zákazníky. Jeho hlavní náplní je monitorování a ovlivňování pohledu veřejnosti na hotel 17

prostřednictvím internetu (Admin, 2014) (Customer Alliance, 2015). Ve většině podniků je reputation management zakomponován v PR strategii a dalších aktivitách. S růstem počtu zákaznických hodnocení a možností na tato hodnocení reagovat se reputation management oddělil jako samostatná disciplína. Hlavní náplní je tedy monitorování online recenzí a správná reakce na ně. Reakce hotelu na online hodnocení mohou ovlivnit vnímání podniku a rozhodování potenciálních zákazníků. Zákazníci očekávají od hotelů reakce na hodnocení (pokud takovou možnost OTA nebo srovnávací portál nabízí) a ovlivňuje to jejich vnímání hotelu (Fox, 2012). Téměř 84 % lidí potvrdilo, že reakce vedení hotelu na špatné hodnocení zlepšilo jejich pohled na hotel, a 78 % lidí spojuje tyto reakce s dobrou péčí o zákazníky. Více než polovina lidí raději zvolí hotel, který se svými zákazníky komunikuje než ten, který ne. V návaznosti na útočnou nebo agresivní reakci by si hotel nevybralo 64 % lidí. Podle studie společnosti Forrester pro TripAdvisor LLC. u 78 % lidí vyvolá dobrá reakce na dobré i špatné hodnocení zlepšení pohledu na hotel (Special Nodes, 2012). Samotným reagováním či nereagováním se zabýval Ian Taylor v rozhovoru s Andy Phillippsem (Taylor, 2012), zakladatelem serveru Booking.com, který řekl, že reakce hotelu pomáhají snížit relativní počet negativních hodnocení hotelu. Hotely, které na hodnocení nereagují, mívají 20 % hodnocení záporných. U aktivních hotelů je tato hodnota pouze 6 %. 1.1.2.2. Ekonomické dopady zákaznických hodnocení Zákaznická hodnocení ovlivňují nejen vnímání hotelu nebo značky a proces zákaznického rozhodování, ale ovlivňují také objem prodeje (Admin, 2014) a další ekonomické ukazatele hotelu (obsazenost, cenu pokojů, ADR a RevPAR). Obsazenost hotelů je přímo spojena s poptávkou, která je ovlivněna pozitivními, případně negativními hodnoceními na internetu. Souvisí to s předchozími údaji o vlivu hodnocení na rozhodovací proces spotřebitele. Jeniffer Davies ze společnosti Expedia Inc. (Torchio, 2011) poukazuje na fakt, že hotely s hodnocením 4.0 až 5.0 mají větší tzv. conversion rate než hotely s hodnocením 1.0 až 2.9. Vliv na cenu hotelových pokojů zobrazuje studie společnosti comscore Inc. a The Kelsey Group (comscore Inc., 2007). Při stejné úrovni služeb jsou zákazníci ochotni zaplatit za hotelový pokojů v hotelu hodnoceném pěti hvězdičkami o 38 % vyšší cenu než v hotelu hodnoceném čtyřmi hvězdičkami. Nejkomplexněji na celou problematiku vlivu online hodnocení na ekonomické ukazatele hotelu pohlíží Chris K. Anderson ve studii The Impact of Social Media on Lodging Performance (Anderson, 2012). Mezi hlavní zjištění patří: 18

zvýšení hodnocení hotelu o 1 bod na stupnici od 1 do 5 umožní hotelu zvýšení ceny o 11,2 % při zachování stejné úrovně obsazenosti a tržním podílu, navýšení online reputace hotelu o 1 % (podle ReviewPRO Global Review Index TM) vede k navýšení ceny (měřeno pomocí ADR) o 0,89 %, stejný nárůst reputace o 1 % vede k navýšení obsazenosti o 0,54 % a RevPAR o 1,42 %. 1.1.2.3. Dopady na SEO Jedním z mnoho cílů současných hotelů a hotelových řetězců je maximalizace počtu rezervací, které přicházejí z vlastních stránek. Hotely mají tři hlavní rezervační kanály, a to OTAs, přímé rezervace (vlastní rezervační formulář a stránky, popřípadě telefon nebo walkin) a cestovní kanceláře. Před vznikem OTAs hotely prodávaly svoje kapacity přes GDS cestovním kancelářím a ti je pak přeprodávaly zákazníkům. To vytvářelo určitou neprůhlednost a žádný z článků tohoto řetězce nevěděl, jaké jsou náklady a ceny služeb. OTAs tento proces podstatně zjednodušily a zprůhlednily. V současné době je 76 % rezervací realizováno přes OTAs (Dean, 2015) a velké množství z nich umožňuje zákazníkům zanechat své hodnocení. SEO má hlavní cíl, a to vylepšit obsah stránek tak, aby jej potenciální zákazník lépe našel. Hodnocení zákazníků obsahují klíčová slova, která dané hotely charakterizují, a díky nim mohou hotely upravit obsah svých stránek tak, aby je potenciální zákazník vyhledal a mohl z nich provést rezervaci pokoje. Je také důležité sledovat jazyk, jakým zákazníci hovoří, protože použitá slova charakterizují jednotlivé tržní segmenty. Používání stejného jazyka přiláká mnohem více zákazníků (Dholakiya, 2014). 1.2. Využití dataminingu a textminingu v hotelnictví Rozvoj informačních technologií přinesl do mnoha oblastí podnikání možnost získávat a skladovat velké množství dat, které se týkají různých vnitropodnikových procesů (Uldrich, 2010). Nejinak je tomu v oblasti hotelnictví. Hotely mají oproti jiným podnikům povinnost evidovat své hosty v domovní krize (pouze cizince), do které zapisují jméno a příjmení ubytovaného cizince, den, měsíc a rok narození, státní občanství, číslo cestovního dokladu, počátek a konec ubytování, podle 101 zákona č. 326/1999 Sb., o pobytu cizinců na území České republiky a o změně některých předpisů. Stejně tak hotely evidují všechny své hosty podle zákona č. 565/1990 Sb., České národní rady o místních poplatcích, pro účely výběru poplatků z ubytovací kapacity a poplatku za lázeňsky nebo rekreační pobyt. Ve znění tohoto předpisu hotely vedou evidenční knihu, do které zapisují dobu ubytování, účel 19

pobytu, jméno, příjmení, adresu místa trvalého pobytu nebo místa trvalého bydliště v zahraničí a číslo občanského průkazu nebo cestovního dokladu fyzické osoby, které ubytování poskytl.". S růstem objemu dat a nároků na jejich skladování dochází k tvorbě nových softwarů, které umožňují dlouhodobé skladování a dostupnost uložených dat v uceleném uživatelském prostředí. V současnosti jsou nejpoužívanější PMS, které dávají možnost všem svým uživatelům zadávat, skladovat a analyzovat relevantní data vhodná pro danou pracovní pozici i ostatní uživatele tohoto systému. Tyto nástroje agregují rezervační systémy, databázové systémy, systémy revenue management a mnoho dalších systémů. Všechna data jsou vzájemně propojena a je možné k nim přistupovat z jakékoliv stanice, která má k dané oblasti přístup. Proto je možné neustále aktualizovat a sdílet relevantní data. Vzhledem k tomu, že tyto systémy měly ve svých počátcích předem stanovenou strukturu zadávaných dat, která neodpovídala požadavkům jejich uživatelů, rozšířily se tyto systémy o možnost sdílení nestrukturovaných dat (tedy textových poznámek o hostech, jejich požadavcích a přáních). Hlavním hnacím motorem pro tyto změny bylo zvyšování kvality služeb pro zákazníky. 1.2.1. Datamining Datamining je jedním z nástrojů Business Inteligence, který zažívá od konce 20. století velmi rychlý rozmach (Struhl, 2008). Datamining je proces používající různé analytické nástroje k odhalení vzájemných souvislostí a vztahů, které slouží pro tvorbu validních prediktivních modelů (Two Crowns Corporation, 2005). Na datamining lze nahlížet i jako na proces odhalování hlubších souvislostí, zajímavých a neobvyklých vzorů chování stejně tak jako na deskriptivní, srozumitelný a prediktivní model tvořený z velkých datových souborů (Zaki, a další, 2015). Datamining pracuje stejně jako statistické metody s numerický a kategorickými (nominální a ordinální) proměnnými. Všechna data jsou uspořádána v předem definované struktuře a mají validní hodnoty vzhledem k definované proměnné. Jsou to tedy strukturovaná data, pomocí kterých se mohou vytvářet nejen prediktivní modely, ale i velké množství analýz. Datamining ale nelze chápat jako automatický proces, který prohledává předem definovaná data, a vytváří z nich smysluplné závěry, případně zajímavé vzory chování. Stejně jako u jiných analytických metod je třeba znát obor, ve kterém se datamining aplikuje, data, ze kterých tyto analýzy vycházejí, a hlavně možnosti a limity používaného nástroje. Výstup dataminingových nástrojů je také třeba důkladně kontrolovat a porovnávat s realitou. 20

Ačkoliv se jedná o velmi užitečný nástroj, nedokáže rozhodovat o předem definovaných možnostech řešení, ale může velmi dobře posloužit jako zdroj pro rozhodování zkušených analytiků a manažerů. 1.2.1.1. Rozdíl mezi OLAP a dataminingem Datamining byl definován v přechozí části, ale je třeba jej odlišit od OLAP technologie (Online Analytical Processing). OLAP technologie se zabývá ukládáním dat do datových skladů nebo databází do předem připraveného formátu tak, aby sloužily jako zdroj dat pro analýzu trendů. Pomocí tohoto uspořádání se poté provádí dotazování, tedy ověřování hypotéz. A právě v tom spočívá základní rozdíl mezi těmito technologiemi. Využívání OLAP technologií vychází z ověřování hypotéz a možných vztahů mezi daty. Datamining oproti tomu analyzuje datové soubory a hledá v nich na první pohled nečekané souvislosti a vztahy (Two Crowns Corporation, 2005). 1.2.1.2. Modelové procesy dataminingu Ve svých počátcích byl datamining určen pouze odborníkům s dobrou znalostí problematiky a průběhu zpracování dat. Aby se tato technologie mohla šířit do dalších oborů, bylo třeba vytvořit univerzálně použitelné modely pro úspěšnou implementaci dataminingu. Tyto modely vycházely z faktu, že uživatel nemusí znát analytické procesy, ale musí vědět, jak s nimi pracovat a jak je používat. A proto byly vytvořeny dva základní modely procesů dataminingu, a to CRISP-DM a SEMMA. CRISP-DM (Cross Industry Standard Process for Data Mining) začal být tvořen v roce 1996 v průběhu spolupráce tří hlavních partnerů, kteří měli s dataminingem dlouholeté zkušenosti. Společnostmi DaimlerChrysler, SPSS a NCR (SPSS Inc., 2000). V průběhu několika let se stal hlavním používaným dataminingovým přístupem (Zaki, a další, 2015) (Two Crowns Corporation, 2005). Obrázek č. 1 Modelový proces CRISP-DM (Jensen, 2012) zobrazuje šest základních kroků pro úspěšnou implementaci a využití dataminingu. Business Understanding. První fáze dataminingu, jejíž cílem je přesně definovat požadavky a cíle z pohledu daného podniku. Data Understanding. Ve druhé fázi je třeba pracovat s daty a poznat je. Zjistit, jakých hodnot mohou nabývat a postupně odhalovat možné vztahy a modelovat hypotézy. Data Preparation. Po poznání dat je třeba tato data očistit, upravit a dále připravit pro dataminingové nástroje. 21

Modeling. V další fázi se již aplikují zvolené nástroje. Datamining má velmi širokou škálu použitelných metod. Je třeba najít ten správný nástroj, který podá ty správné poznatky a informace o datovém souboru. Velmi často se z této fáze pracovníci vracejí do fáze předchozí a upravují datový soubor pro potřeby vybraného analytického nástroje. Evaluation. Po modelování přichází fáze zhodnocení. Hodnotí se nejen dosažené výsledky, ale i samotný postup a příprava dat. Vše se pečlivě zaznamenává tak, aby bylo možné analýzu na stejném datovém souboru opakovat. Deployment. V poslední fázi se poznatky z celého dataminingového procesu převádějí do takového formátu, který odpovídá konečným uživatelům. (SPSS Inc., 2000) Obrázek 1 Modelový proces CRISP-DM (Jensen, 2012) SEMMA (Sample, Explore, Modify, Model, Assess) je proces vytvořený společnosti SAS (SAS Institute Inc., 1998) pro úspěšnou aplikaci dataminingových nástrojů v praxi. Společnost SAS je jedním z největších dodavatelů těchto řešení, nicméně její proces je dnes na druhém místě co do četnosti používání, hned za dříve zmíněným CRISP-DM. Proces je sestavený z pěti kroků (Obrázek 2 Modelový proces SEMMA). Oproti CRISP-DM se SEMMA zaměřuje na podrobnější poznání datového souboru a již počítá se znalostí podnikatelského prostředí a řešených problémů. Stejně tak počítá s předáváním informací jejich uživatelům, a proto v sobě nezahrnuje první a poslední fáze procesu CRISP-DM (Business Understanding a Deployment). 22

Prvním krokem je SAMPLE, neboli vzorkování datového souboru, při kterém se z datového souboru vybírá reprezentativní vzorek vhodný pro poznání datového souboru. Hlavním důvodem je malý objem dat, s kterým se pracuje mnohem lépe, a dají se v něm odhalit případné chyby zkreslující výsledek. Druhým krokem je EXPLORE, tedy prohledávání dat a hledání určitých vzorů a specifických znaků, které jsou důležité pro formulování hypotéz a výzkumných cílů. Třetí krok, MODIFY, vychází z potřeby pracovat pouze s takovými daty, které se přímo vztahují k řešenému problému. Probíhá výběr důležitých proměnných a případů. Čtvrtý krok je stejný jako u CRISP-DM, tedy MODEL. Vytváření modelů aplikací analytických nástrojů. V posledním kroku, ASSESS, se hodnotí získané informace, jejich spojitost s cílem projektu a také možnosti jejich implementace. Tedy použitelnosti těchto závěrů. (Azevedo, a další, 2008) SAMPLE EXPLORE MODIFY MODEL ASSESS Obrázek 2 Modelový proces SEMMA Oba zmíněné procesy slouží jako návod pro úspěšnou aplikaci dataminingových nástrojů na velké datové soubory. Z pohledu komplexnosti je lepší proces CRIPS-DM, který v sobě zahrnuje jak počáteční fázi poznání oblasti podnikání, tak fázi aplikace a přizpůsobení výstupů konečným uživatelům. SEMMA tyto kroky pouze předpokládá, a proto nemůže být plnohodnotným návodem pro laické uživatele bez přesnější znalosti dataminingu a jeho nástrojů. 1.2.1.3. Přehled současné literatury vztahující se k aplikaci dataminingu v hotelnictví Going forward, technology will be the most important competitive weapon for any hospitality company. If hospitality organizations want to compete successfully they must do so by using technology to drive the value to both the customer and the firm. (Olsen, a další, 1999 str. 29). Aplikací dataminingu v hotelnictví se již v minulosti zabývalo několik autorů (Magnini, a další, 2003), (Kim, a další, 2008), (Law, 1998), (Danubianu, a další, 2008) a mnoho dalších. Ve většině případů se autoři zaměřují na aplikaci těchto analytických metod hlavně v oblasti marketingu pro segmentování zákazníků a pro možnou predikci jejich 23

chování. Data mining can provide a window into customers behavior if it s handled correctly. (Magnini, a další, 2003 str. 94) Segmentace zákazníků již není pouze otázkou demografických ukazatelů (věk, rodinný stav, pohlaví, země původu a další). Do popředí se dostávají psychografické ukazatele (Kim, a další, 2008) vycházejících ze zákazníky využívaných služeb, zákaznických preferencí, spotřebního chování a mnoha dalších ukazatelů, které mohou být závislé na základních demografických ukazatelích, ale ty se používají pouze pro dodatečnou segmentaci, pokud jsou segmenty příliš široké a velké. Využíváním dataminingových nástrojů je možné získat všechny důležité poznatky a informace o svých zákaznících, i ty, které nejsou na první pohled patrné, a použít je pro vylepšení produktu a poskytovaných služeb. Většina autorů se shoduje na možnostech využití těchto nástrojů v hotelnictví. Stejně tak se zaměřují na limity a překážky, které stojí před implementací dataminingových nástrojů. Nejvýznamnější překážkou je finanční náročnost těchto nástrojů. Hotelové podniky provozují vlastní PMS, který je sám o sobě finančně náročný. Nové verze těchto systémů obsahují funkce Business Inteligence, které umožňují základní analýzy, nicméně nedokáží vyhledat a identifikovat na první pohled neviditelné vztahy a ukazatele. Ve spojení s nízkou důvěrou v tyto nástroje, nízkou informovaností o možnostech jejich využití a možných výstupech, a v mnoho případech i nedostatečnou znalostí analytických nástrojů a procesů, jsou dataminingové nástroje pro mnohé hotely nedostupné a neatraktivní (Magnini, a další, 2003). 24

1.2.2. Textmining Jak již bylo zmíněno, moderní společnosti hromadí velké množství dat ve svých datových skladech, případně databázích. Je obecně známo, že až osmdesát procent uložených dat v databázích po celém světě má podobu textu, tedy nestrukturovaných dat. (Uldrich, 2011 str. 18). Na stejný fakt poukazuje i společnost Butler Analytics. This is something of an irony since text based data typically accounts for eighty per cent of the data most organizations generate and process. (Butler Analytics, 2014 str. 3). Je s podivem, že se velmi málo společností zaměřuje na analýzu nestrukturovaných dat. Velký zdroj důležitých poznatků a informací, kterými jsme doslova obklopeni (emaily, články, zprávy, recenze, stížnosti, dopisy, volné otázky v dotaznících a další). Proto je velmi důležité analyzovat a sledovat i tato nestrukturovaná data pro získání drahocenných informací, souvislostí a charakteristik. Nejjednodušším přístupem pro analyzování textu je jejich přímé ruční třídění. Zaměstnanci jednotlivé textové záznamy pročítají a vyhledávají v nich například klíčová slova. Z tohoto pohledu je analýza textu neefektivní a velmi drahá, a proto se přistupuje k automatickým analýzám textu pomocí textminingových nástrojů. Textmining je charakterizován jako automatizovaný přístup pro získávání nových, dříve neznámých informací a vztahů z textových dokumentů (nestrukturovaných dat) (Hearst, 2003). Zde je patrný rozdíl mezi textminingem a dataminingem. Textmining pracuje s předem nestrukturovanými daty, kdežto datamining potřebuje pro analýza data strukturovaná. Dnes se již velmi zřídka používá pojem nestrukturovaných dat a spíše se mluví o takzvaných semistructured data, neboli částečně strukturovaných datech. Hlavní důvodem je, že i nestrukturovaná data v podobě volného textu mají určitou strukturu. Příkladem může být i tato práce, která má přesně definovanou strukturu, tedy úvod, teoretickou, praktickou a návrhovou část a závěr. Textmining převádí tato nestrukturovaná nebo částečně strukturovaná data do podoby informací, které jsou srozumitelné jejich dalších uživatelům, a to lidem nebo dalších nástrojům. (Butler Analytics, 2014) 1.2.2.1. Multidisciplinární struktura textminingu Textminingu je vnímán jako komplexní jednotná oblast, která dokáže analyzovat nestrukturovaná data. Pro lepší pochopení celého procesu textminingu je nutné pochopit alespoň základní charakteristiky jednotlivých oblastí, kterých se textmining dotýká. Obrázek 3 Text mining a jeho složky (Klein, a další, 2014) zobrazuje tzv. venn diagram textminingu. 25

Obrázek 3 Text mining a jeho složky (Klein, a další, 2014) Z tohoto obrázku je patrné, že se textmining prolíná hlavně s oblastí statistiky, která zasahuje do všech analytických činností. Dalšími oblastmi jsou oblasti dataminingu, databází a jejich správy, knihoven a dalších informací, výpočetní lingvistiky a strojového učení. V návaznosti na tyto propojené oblasti probíhá při textminingu následujících sedm procesů. Information retrieval, často označovaný pouze jako IR. Proces získávání dat z různých zdrojů a databází, jejich následné skladování a označování klíčovými slovy pro usnadnění dalšího vyhledávání. Document clustering, dělení dokumentů do předem určených shluků (skupin s podobnými charakteristikami). Velikost a charakteristiky shluků je nutné přesně určit tak, aby nedošlo k duplikaci jednotlivých záznamů. Document classification, další dělení dokumentů a jejich částí s využitím dataminingových nástrojů a postupů. Webmining, neboli dolování informací z webu za využití dataminingových a textminingových nástrojů. Webmining se od textminingu liší hlavně tím, že vyhledává předem známé informace a data v neznámém webovém prostředí. Information extraction. Vytažení důležitých a zajímavých informací z nestrukturovaných a částečně strukturovaných dat, které lze následně měnit na data strukturovaná. 26

Natural language processing (NLP). Proces získávání znalostí z textu, pochopení souvislostí a vazeb mezi jednotlivými slovy, který napomáhá počítačovým systémům chápat psané texty a dokázat je analyzovat. Tento proces hraje velkou roli při úpravě dat a jejich přípravě pro analytické metody textminingových nástrojů, protože současné nástroje umožňují rozdílné chápání textu. Concept extraction. Získávání nových pojmů, skupin slov a frází na základě sémantické podobnosti. Tento proces je velmi silně vázán na NLP a vytváří jeho nadstavbu. Umožnuje lepší chápání textů, jejich hlavních konceptů a témat. Nejdůležitější částí celého textminingu je schopnost počítačových systémů analyzovat nestrukturované nebo částečně strukturovaná data ve formě textu, a proto je třeba zmínit alespoň základní pohled na problematiku NLP. 1.2.2.2. Natural language processing (NLP) NLP je součást umělé inteligence umožňují počítačovým systémům pochopit lidskou řeč (Rouse, 2011) a dále ji analyzovat a zpracovávat. Základnou pro NLP je lingvistika, ze které vychází i filosof Charles Morris, který určil tři hlavní oblasti, které ovlivňují vzájemnou komunikaci (Spyns, 1996). První oblastí je pragmatika. Věda na pomezí lingvistiky a filosofie, která nesleduje komunikaci jako pouhý sled slov, ale snaží se postihnout motiv řečníka, proč řečník dané věci říká, jaký cíl tím sleduje a jaké jsou jeho úmysly. Sleduje kontext celého projevu. Druhou oblastí je sémantika. Ta sleduje slovníkový význam slov a slovních spojení. Nevnímá tedy slova jednotlivě, ale dokáže z nich tvořit i fráze a ustálená spojení, která mohou mít odlišný význam než jednotlivá slova v tomto spojení. Poslední oblastí je syntax. Ten sleduje větnou skladbu a skládá se ze slovníkových výrazů, tedy slov a jejich skladby. Kvalitní nástroj by měl být schopný odhalit a analyzovat jednotlivé oblasti lidské řeč. Ne vždy je ale možné použít takový nástroj, který dokáže identifikovat kontext dokumentu. Proto je nutné podřídit složitost a nároky na analýzu používaným nástrojům. Prvním krokem při analyzování textu je proces identifikování jednotlivých slov a frází, případně dělení slov do určitým skupin. K tomuto účelu se používají čtyři přístupy: tokenization, part-of-speech tagging, syntactical parsing, shallow parsing (Feldman, a další, 2006). Tokenization je prvním krokem zpracování nestrukturovaných dat a je velmi důležitá pro všechny navazující aktivity. Je to proces dělení nepřetržitého proudu znaků (textu) do smysluplných slovních (ale i znakových) útvarů. Toto dělení může probíhat na několika 27

úrovních podle velikosti a složitosti textu. Základní je dělení podle odstavců, dále podle vět, slovních spojení, slov. Někdy se přistupuje i k dělení podle slabik nebo dokonce podle jednotlivých znaků (souhlásek, samohlásek, interpunkce). Textová analýza probíhá v převážné většině na úrovni slov, slovních spojení, případně na úrovni slabik. Tokenizace je velmi složitý proces, který se musí vypořádávat s velkým množstvím nepravidelností, jakými jsou například tečky ve zkratkách, která neoznačují konec věty. Mezi další problematické oblasti patří velké písmeno na začátku některých slov. Part-of-Speech tagging je navazujícím procesem na proces tokenizace, který dělí text na jednodušší slovní útvary. V tomto kroku se jednotlivá slova označují určitými značkami podle jejich postavení ve větě, jejich významu a celkovém kontextu. Rozlišení kontextu je velmi důležité, protože existuje velké množství slov, u kterých kontext určuje jejich význam. Nejčastěji se jako skupiny používají slovní druhy, ale existují složitější systémy, které rozlišují desítky různých skupin, např. Brown Corpus. Syntactical parsing, v překladu syntaktická analýza, je pokročilejším analytickým nástrojem pro analýzu textu. Vychází z gramatiky jednotlivých jazyků a jejich větné skladby. V angličtině se používá vzorec SVOMPT, který charakterizuje posloupnost slovních druhů ve větě. K této analýze existuje dva hlavní přístupy. Prvním přístupem je analýza založená právě na postavení jednotlivých slovních druhů ve větě (constituency grammar). Každé slovo má svoji předem danou pozici a je tak možné věty dělit do skupin slov podle větných členů. Druhým přístupem je hledání souvislostí mezi jednotlivými slovy ve větě (dependancy grammar). Hledanými objekty nejsou pouze podmět, předmět, přísudek a další, ale jejich vzájemné vazby a vytvářené fráze, jako například dobrý hotel a další. Shallow parsing je posledním možným analytickým přístupem. Ten přináší kompromis mezi rychlostí a důkladností analýz. Analyzuje pouze lehké a počítači srozumitelné fráze a věty. Zabývá se pouze výrazy a větami, jejichž význam je zcela jasný. Vzhledem ke své rychlosti a jednoduchosti je velmi často používán, ale jeho použití ztrácí význam při aplikaci na silně specializované a odborné texty, jejichž význam a smysl nemusí být vždy zcela jasně patrný. 1.2.2.3. Rozdíly a možné propojení textminingu a dataminingu Jak již bylo zmíněno v předchozí části této práce, hlavním rozdílem mezi textminingem a dataminingem jsou data, se kterými jednotlivé metody pracují. Datamining pracuje se strukturovanými daty. Zjednodušeně s daty, které je možné uchovávat a agregovat v tabulkách. Tato data mají určitou strukturu, jako například věk, zákaznických segment, bydliště, rodinný stav a objevují se v nich předem předpokládané hodnoty. Textmining 28

oproti tomu pracuje s daty nestrukturovanými nebo semi strukturovanými v podobě textu (emaily, články a další.). Cílem obou metod je vytvářet přesný pohled na současný a minulý stav podniku a na tomto základě vytvářet prediktivní modely. Pro to, aby byl model co nejpřesnější a měl co nejvyšší vypovídající hodnotu, je třeba využívat všechna dostupná data a informace. Z tohoto důvodu se pomocí textminingu vytváří nové proměnné, které se dále přenášejí ve formě strukturovaných dat do existujících databází a vytváří tak nový rozměr analýz a prediktivních modelů. Tento fakt zobrazuje i obrázek 4 Využití nestrukturovaných dat v dataminingu (Butler Analytics, 2014). V případě uživatelských hodnocení je tak možné přiřadit hlavní témata hodnocení k jednotlivých národnostem, pohlaví, ale i zákaznickému segmentu. Tato znalost klíčových slov, jak pozitivních, tak negativních, umožňuje podnikatelům upravovat produkt podle zvoleného zákaznického segmentu nebo dalších kritérií. Zde vycházíme z toho, že poptávka zákazníků není homogenní, a produkt je nutný specifikovat pro každý zvolený segment, aby odpovídal požadavkům tohoto segmentu. Text mining lze tedy použít jako nástroj pro tvorbu nových proměnných. Většinou je výstupem tzv. word-matrix, matice všech použitých slov podle jednotlivých záznamů. Tento word-matrix se dále připojuje k již vytvořených tabulkám strukturovaných dat a umožňuje komplexnější analýzu. Na textmining by se tedy dalo pohlížet jako na součást dataminingového procesu, která dokáže na základě vlastních analytických metod přinést nový rozměr všech analýzám. 1.2.2.4. Modelový proces textminingu Obrázek 4 Využití nestrukturovaných dat v dataminingu (Butler Analytics, 2014) Stejně jako datamining má i textmining svoji procesní posloupnost. Postup, podle kterého se postupuje pro úspěšnou aplikaci textmining. Vzhledem k tomu, že je datamining jednou z oblastí, která ovlivňuje textmining, je možné postupovat podle dříve zmíněných 29

postupů (CRISP-DM, SEMMA). S tím rozdílem, že je třeba věnovat mnohem větší pozornost sběru dat a jejich úpravě před samotnou analýzou. Ronen Feldman ve své knize The Text Mining Handbook (Feldman, a další, 2006) popisuje proces textminingu v několika krocích podle nároků na samotný proces a podrobnosti popisu jednotlivých částí tohoto procesu. Obrázek 5 Procesní model textminingu (Feldman, a další, 2006 str. 15) popisuje 5 základních částí tohoto procesu. Na začátku jsou nestrukturovaná data v podobě textových dokumentů, které jsou následně předzpracovány. Tyto dokumenty jsou zařazeny do různých kategorií podle jejich obsahové podobnosti a jsou z nich vybrána klíčová slova, termíny a slovní spojení. Takto zpracované dokumenty jsou dále děleny podle jednotlivých klíčových slov případně dalších kritérií. Na tento krok navazuje již vlastní textová analýza, při které jsou odhaleny dříve neznámé vztahy, trendy. Posledním krokem je vizualizace a sumarizace analýz a předání informací uživateli těchto nástrojů. Tyto výstupy pak slouží jako důležitý zdroj informací při rozhodovacích procesech. Obrázek 5 Procesní model textminingu (Feldman, a další, 2006 str. 15) 1.2.2.5. Přehled současné literatury vztahující se k aplikace textminingu hotelnictví Textmining je poměrně mladou technologií, která se neustále vyvíjí a téměř každý den je možné narazit na nové průlomové poznatky z této oblasti. Oblast hospitality má oproti jiným odvětvím nevýhodu v tom, že poměrně pomalu přijímá a využívá nové technologie. Jedním z důvodů je vysoká oborová konkurence a vysoké náklady na nákup nových technologií, které představují riziko možné finanční ztráty. Proto se první aplikace textminingu v oboru uskutečnili na akademické půdě Cornell School of Hotel Administration (Lau, a další, 2005). Hlavním cílem bylo zjištění, zda je možné využít text mining pro získání konkurenční výhody, pomocí dolování dat a informací o nabízených službách a aktuálních cenách tak, aby nebylo nutné prohlížet jednotlivé hotelové weby. Součástí bylo i analyzování uživateli tvořeného obsahu, na který se v současnosti zaměřuje veškerá pozornost hotelových marketérů. Ze studie vyplynulo, že každý geografický 30

segment má vlastní požadavky na úroveň a rozsah služeb, což se přímo promítá i do obsahu hodnocení a hlavních oblastí hodnocení. Analýzou hotelových recenzí se zabývali i další akademické studie (Lustigová, a další, 2014), (Barreda, a další, 2013), (Hospitality-industry.com, 2014). Společným znakem těchto studií je aplikace na hotelové, respektive restaurační, recenze, pro zjištění komplexních informacích o zákaznících a jejich vztahu k jednotlivým objektům. Všechny studie zmiňují současné limitace a hrozby pro aplikaci textminingu v hotelnictví. Nejvýznamnější překážkou pro aplikaci text miningu v hotelnictví je jeho vysoká finanční náročnost a požadavek na kvalifikovaného pracovníka, který je schopný provádět důkladně analýzy dostupných dat. Další překážkou je časová náročnost svázaná se změnami webu, které jsou velmi interaktivní, uživatelsky příjemné, ale nelze z nich extrahovat jednotlivá data automaticky. Poslední překážkou jsou jazykové mutace nestrukturovaných dat, kterých se objevuje velké množství a většina dostupných systémů pracuje pouze s omezených počtem znakových sad. Dalším shodným bodech těchto studií je poukazování na narůstající množství dat, které je nutné analyzovat, a proto je textminingu předpovídána slibná budoucnost. 31

2. Analytická část V teoretické části této práce byla popsána důležitost uživatelských hodnocení jak pro zákazníky v rámci jejich rozhodovacího procesu, tak pro hotelové provozovatele, kteří díky nim mohou získat větší množství zákazníků, zvýšit hodnoty hlavních ekonomických ukazatelů a snížit náklady na zprostředkovatele ubytovacích služeb. V této části byla na základě těchto poznatků analyzována zákaznická hodnocení ze serverů Booking.com a TripAdvisor.com pro pražské hotely hotelového řetězce Vienna International Hotels & Resorts pomocí dataminingových nástrojů statistického softwaru IBM SPSS Statistics a textminingového nástroje STATISTICA. Na základě poznatků z dosud publikované literatury vztahující se k využití dataminingových a textminingových nástrojů v hotelnictví nebylo možné určit žádné hypotézy, které by bylo možné statisticky testovat. Proto je zvolenou metodu explorační analýza dostupných dat. 2.1. Výběr zdrojových serverů pro sběr zákaznických hodnocení Jako hlavní a jediný zdroj dat pro další zkoumání byly zvoleny recenzní a rezervační portály Booking.com a TripAdvisor.com. Ty obsahují velké množství volně dostupných dat ve velmi podobných strukturách. Podle prezentace společnosti ReviewPro je v současné době v provozu 123 rezervačních a recenzních serverů, které mají vztah k oblasti hotelnictví. Pro účely této práce byly zvolena dva nejvýznamnější servery, a to Booking.com a TripAdvisor.com. 2.1.1. Zdroj 1: Rezervační server Booking.com Booking.com je v současné době největším a nejpoužívanějším rezervačním portálem nejen v Evropě (Fox, 2012), ale i na světě. V databázi tohoto serveru se nachází více než 600 000 aktivních ubytovacích zařízení (Hotelmarketing'com, 2015) a to nejen díky velkým možnostem hotelové propagace v rámci webu, případně re-marketingu, ale i díky velkému množství uživatelských recenzí, které napomáhají jednotlivým zákazníkům při rozhodování. Server Booking.com agreguje uživatelská hodnocení za posledních 14 měsíců, tak aby byla hodnocení relevantní pro jejich uživatele. Možnost hodnotit ubytovací zařízení mají pouze ti uživatelé, kteří přes tento server zabookovali svůj pobyt, a proto jsou hodnocení ověřená a měla by být pravdivá. Alespoň z toho pohledu, že je vytváří reální uživatelé, kteří se v daném hotelu ubytovali. Jedním rozporuplným a velmi často diskutovaným tématem je cenzura uživatelských hodnocení. Někteří uživatelé mohou nabýt pocit, že hotel může přímo 32

ovlivnit kvalitu svých hodnocení domluvou se serverem, který bude negativní hodnocení mazat nebo je nebude publikovat. Proto přišel server Booking.com s uživatelským návodem, jak a proč psát hodnocení. Součástí tohoto návodu je několik důvodů, proč Booking.com nezveřejní hodnocení v plném rozsahu, nebo je nezveřejní úplně. Zde je výčet těchto důvodů. Nežádoucí obsah, tedy urážky, sprostá slova a diskriminace. Osobní informace jako telefonní čísla a emailové adresy, které by mohl kdokoliv zneužít. Citlivé informace, jako nařčení z krádeže a další. Všechny tyto problémy se řeší přímo se společností Booking.com a daným hotelem. Irelevantní informace ve formě reklam a politicky orientovaných příspěvků. Chybějící klíčové informace. Host nespal v daném ubytovacím zařízení a vytváří tak hodnocení bez osobní zkušenosti. Host udělal chybu a má tak možnost kontaktovat Booking.com a chybu napravit. Hodnocení obsahuje velké množství indikátorů, které poukazují an to, že hodnocení není pravdivé. Systém hodnocení na serveru Booking.com se v průběhu posledních dvou let výrazně změnil. Poslední a nejvýraznější změnou je přidání některých funkcí a možností vyhledávání pro uživatele webu. Tyto změny se odehrály hlavně kvůli rostoucímu vlivu ewomu a reputation managementu v oboru. Stejně tak tyto změny směřují k udržení pozice na trhu a nabídnutí více možností získání informací pro své zákazníky. Nejvýraznější změny byly realizovány v roce 2015, a to přidání možnosti odpovědi na uživatelské hodnocení, možnosti vyhledávání hodnocení podle klíčových slov, řazení hodnocení podle uživatelských segmentů a použitého jazyka. 2.1.1.1. Struktura zákaznického hodnocení a sběr dat Obrázek 6 Struktura zákaznického hodnocení na serveru Booking.com zobrazuje současnou strukturu dat. V levé horní části jsou údaje o uživateli, tedy jeho jméno, zvolená národnost, zařazení do věkového segmentu a počet hodnocení na serveru Booking.com. Hlavní část tvoří samotné hodnocení v podobě celkového číselného hodnocení a k němu přiřazenému slovní hodnocení. Pod ním jsou čtyři kategorie, do kterých je hodnocení zařazeno. V tomto případě se jedná o zařazení do zákaznického segmentu Business Trip a Solo Traveller, využití pokoje Double Room a počet dní strávených v hotelu. Tato hodnocení a zařazení jsou doplněna o pozitivní a negativní hodnocení hotelu. Hotely mají od roku 2015 33

možnost na tato hodnocení reagovat a jejich odpověď je zařazena pod samotné hodnocení. Nad každým hodnocením je i datum, a proto lze tato hodnocení řadit i chronologicky. Obrázek 6 Struktura zákaznického hodnocení na serveru Booking.com (Booking.com, 2015) Vzhledem k tomu, že zdrojový kód těchto stránek byl velmi složitý a data nebylo možné získávat pomocí jednoduché aplikace pro stahování dat ze zvoleného místa ve zdrojovém kódu internetové stránky, bylo nutné přistoupit k ručnímu stahování těchto dat ze stránek Booking.com. Takto získaná data byla uspořádána do předem připravené struktury v programu Microsoft Excel. Tu zobrazuje tabulka 1 Struktura dat v zákaznickém hodnocení ze serveru Booking.com. Pro každé hodnocení bylo vytvořeno následujících 12 proměnných. Jazyk hodnocení. Pohlaví hodnotitele. Zemi původu hodnotitele. Datum vložení hodnocení, které bývá vloženo do 14 dnů po ukončení pobytu v daném hotelu. Celkové číselné hodnocení. Celkové slovní hodnocení, které je přidělována na základě stanovené stupnice. Hlavní segmentační zařazení. Doprovodné segmentační zařazení. Délka pobytu. Doprovodná informace (typ využitého pokoje). Pozitivní slovní hodnocení. Negativní slovní hodnocení. 34

Slovní Jazyk Pohlaví Země Datum # hodnocení Business Solo Double # nocí room ENG W CZ 26. 2. 2015 8,8 Fabulous 1 1 1 1 Pozitivní slovní hodnocení Negativní slovní hodnocení only negative was that the wifi was not working Great location and staff properly. It was impossible to log in or browse any website Tabulka 1 Struktura dat v zákaznickém hodnocení ze serveru Booking.com 2.1.2. Zdroj 2: Recenzní server TripAdvisor.com Druhým použitým zdrojem dat byl recenzní portál TripAdvisor.com. Ten je v současné době největším recenzním portálem v oblasti hotelnictví na světě a agreguje přes 200 milionů uživatelských recenzí a názorů týkajících se 4, 4 milionu ubytovacích zařízení (TripAdvisor Inc., 2015). Tato hodnocení jsou využívána nejen na tomto portálu, ale i na jiných rezervačních portálech jako například Expedia.com, Hotels.com, Travelocity.com, Trivago.com a další. V porovnání s dříve zmíněným rezervačním portálem Booking.com nabízí TripAdvisor.com mnohem více uživatelských hodnocení. To je způsobem hlavně tím, že TripAdvisor.com shromažďuje všechna hodnocení od založení profilu ubytovacího zařízení až po současnost. Druhým zásadním rozdílem mezi těmito servery je možnost přidání recenze, která je v případě Booking.com zpřístupněna pouze uživatelům, kteří využili služeb daného hotelu. U serveru TripAdvisor.com má možnost přidat recenzi k ubytovacímu zařízení kdokoliv, a proto mezi odborníky převládá názor, že obsahuje velké množství fiktivních a nepravdivých hodnocení. 35

2.1.2.1. Struktura hodnocení a sběr dat Obrázek 7 Struktura zákaznického hodnocení na serveru TripAdvisor.com (TripAdvisor Inc., 2015) zobrazuje základní strukturu uživatelského hodnocení na serveru TripAdvisor.com. Ta je na první pohled zcela zřetelná. V levé části jsou opět údaje o uživateli jako uživatelské jméno, země původu uživatele, počet recenzí a recenzovaných měst a bodové ocenění za přínosnou recenzi. V hlavní části hodnocení je velmi stručné, většinou jednořádkové shrnutí celého hodnocení. Tato shrnutí jsou dobrým zdrojem klíčových slov pro jednotlivé hotely. Na stručné hodnocení navazuje bodové hodnocení na škále od 0 do 5. Nejdůležitější části je slovní hodnocení ubytovacího zařízení. Na rozdíl od Booking.com není slovní hodnocení rozděleno na pozitivní a negativní část, což může vyvolat nepřesnosti při analýze slovních hodnocení. Na ně navazuje datum pobytu, díky kterému se dá zařadit hodnocení do určité časové řady. Hodnocení na serveru TripAdvisor.com obsahují i dílčí hodnocení jednotlivých zákazníků v šesti kategoriích, a to poměr ceny a kvality, umístění, kvality spánku, pokoje, čistotu a služby. Všechna tato dílčí hodnocení mají vliv na celkové hodnocení. Stejně jako u přechozího serveru byla data získávána manuálně do připravené struktury v programu Microsoft Excel. Tuto strukturu zobrazuje Tabulka 2 Struktura dat v zákaznickém hodnocení ze serveru TripAdvisor.com. Obrázek 7 Struktura hodnocení na serveru TripAdvisor.com (TripAdvisor Inc., 2015) 36

Jazyk Pohlaví Země Datum pobytu Cena/ výkon Umístění Kval. spán ku Po koj Čistota Služb y ENG M X 12/2014 5 5 X 5 5 5 Segment Stručné hodnocení Podrobné hodnocení A very nice family-sized room overlooking the railway station park. The hotel staff were X Conveniently located and servicefriendly. located and within walking distance of the very friendly and helpful. Conveniently city-center attractions. Overall, we were pleased with the visit. Tabulka 2 Struktura dat zákaznického hodnocení ze serveru TripAdvisor.com 2.2. Výběr ubytovacích zařízení pro sběr dat Východiskem pro výběr ubytovacích zařízení, u kterých budou zkoumána uživatelská hodnocení, byl průzkum provedený doc. RNDr. Zdenou Lustigovou, Csc. a Bc. Štěpánem Chalupou (Lustigová, a další, 2014). Ti pro svůj průzkum využili velmi široký vzorek hotelů, přesněji všechny pětihvězdičkové hotely z oblasti Praha 1 ze serveru Booking.com. Výsledek aplikace textminingového nástroje STATISTICA byl ovlivněn hlavně nerovnoměrným počtem hodnocení u jednotlivých hotelů a také tím, že byla hodnocení zkoumána pouze jako celek, ne jednotlivě pro vybrané hotely. Na základě těchto zkušeností byly pro účel této práce vybrány pražské hotely hotelového řetězce Vienna International Hotels & Resorts a to z následujících důvodů. Osobní zkušenost autora této práce s hotely Vienna International Hotels & Resorts. Členství hotelů v řetězci, u kterého se dá předpokládat soustavné hlídání standardů služeb, a proto by v průběhu roku nemělo docházet k výkyvům kvality poskytovaných služeb. Hotely se od sebe odlišují nejen svojí velikostí, ale i svojí třídou a hlavně konceptem. U konferenčních hotelů se dá očekávat větší zastoupení segmentu business cestujících, což bude mít vliv i na obsah a počet zákaznických hodnocení. I přesto lze hotely porovnat na základě standardně poskytovaných služeb. Vybrané hotely jsou situovány v Praze, čímž se snižuje rozdílnost hodnocení na základě geografického umístění. Hotelový řetězec Vienna International Hotels & Resorts provozuje v České republice celkem 6 hotelů ve dvou třídách (tři hvězdy Superior a čtyři hvězdy) a jeden apartmánový komplex napojený na pražský hotel andel s Hotel Prague. Čtyři hotely jsou situovány v Praze (andel s Hotel Prague, angelo Hotel Prague, Diplomat Hotel Prague, Chopin Hotel 37

Prague), jeden v Karlových Varech (Dvořák Spa Hotel Carslbad) a jeden v Plzni (angelo Hotel Pilsen). 2.2.1. Popis vybraných hotelů Jak již bylo zmíněno v předchozí části, vybrané hotely mají drobné odlišnosti ve svém zaměření a vybavení. Proto je důležité popsat alespoň základní a nejdůležitější charakteristiky vybraných hotelů. Tento popis je doplněn o seznam pěti odhadovaných klíčových slov, které vycházejí z osobní zkušenosti se všemi hotely a také z popisu hotelů. Tento seznam bude konfrontován při analýze slovní části hodnocení z jednotlivých internetových portálů. 2.2.1.1. andel's Hotel Prague andel s Hotel Prague je designovým konferenčním hotelem, který se nachází v pražské části Smíchov v blízkosti obchodního centra Nový Smíchov. V rámci hotelové řetězce je prototypem pro další hotely s názvem andel s, které se nacházejí v dalších evropským metropolích. Hotel těží primárně z moderního designu pokojů a konferenčních prostor, které jsou velmi variabilní a prostorné. Hotel je velmi dobře dostupný, a to jak automobilem (ulice Radlická a Plzeňská), vlakem (Smíchovské nádraží), tak městkou hromadnou dopravou, protože se nachází v těsné blízkosti stanice metra Anděl, tramvajové a autobusové zastávky. Tento čtyřhvězdičkový hotel nabízí 231 pokojů a 8 suitů, které jsou doplněny apartmánovou částí andel s Suites Prague. Velikost konferenčních prostor je přizpůsobena až pro 500 účastník. Tuto kapacitu lze navýšit o konferenční prostory v přilehlém angelo Hotel Prague, případně o kino, které se nachází ve stejném komplexu budov. Stravování je zajištěno moderní restaurací Delight a barem Oscar s. Pro andel s Hotel Prague byla vybrána tato klíčová slova. Moderní, lokalita, metro, obchodní centrum a služby (jejich kvalita). 2.2.1.2. angelo Hotel Prague Tento designový hotel se stejně jako andel s Hotel Prague nachází v pražské části Praha 5. Je situován ve stejném komplexu budov jako andel s Hotel Prague, a proto je stejně dobře dostupný. Nabízí 163 pokojů, 5 apartmánů a vlastní konferenční prostory s kapacitou až 250 osob nebo 650 osob při propojení s konferenčními prostory andel s Hotelu Prague. Hotel je stylizován do barevných odstínů červené, žluté a černé. Za pozornost stojí lobby hotelu propojené s Jazz barem ve stylu 70. let minulého století. Na rozdíl od svého sousedního hotelu se hotel prezentuje jako čistý designerské klenot a konferenční prostory nabízí pouze jako doplňkovou službu. 38

Pro angelo Hotel Prague byla identifikována následující klíčová slova. Design, moderní, služby, lokalita a vřelý (jako charakteristika vybraných barevných odstínů. 2.2.1.3. Chopin Hotel Prague Třetím pražským hotelem je Chopin Hotel Prague, který se nachází v blízkosti hlavního vlakového nádraží. Navíc se nachází pár korků od Václavského náměstí, a proto je hotel vyhledávaný hlavně turisty, kteří označují Prahu jako přestupní stanici pro další cestovní. Jako jediný z pražských hotelů nemá čtyři hvězdičky, ale pouze tři hvězdičky s označením superior. Hotel nabízí 80 prostorných pokojů, snídaňový bar, který slouží i jako večerní bar, a proto hotel nenabízí žádné jiné stravování než barové občerstvení a snídaně. Pro své klienty nabízí jednu konferenční místnost s bezbariérovým vstupem. Hlavní silnou stránkou Chopin Hotelu Prague je jeho lokalita a příjemné prostředí pro nenáročné cestovatele. Pro Chopin Hotel Prague byla vybrána tato klíčová slova. Lokality (umístění), vlak, centrum, snídaně a malý (vztahující s k velikosti hotelu). 2.2.1.4. Diplomat Hotel Prague Poslední pražským hotelem řetězce Vienna International Hotels & Resorts je Diplomat Hotel Prague. Velký, čistě konferenční hotel, který se nachází v blízkosti pražského letiště Václava Havla v Praze. Díky své poloze v blízkosti stanice metra Dejvická je dostupný i pražskou městskou dopravou z centra Prahy do 5 minut. Hotel nabízí 398 pokojů, 19 suitů a 25 rozsáhlých konferenčním místností s celkovou kapacitou pro více než 1000 osob. Dále v hotelu najdete snídaňovou restauraci Loreta, velmi dobrý CD Restaurant, japonskou restauraci Katsura a Café Klimt. V lobby hotelu se nachází i klenotnictví, kadeřnictví a malý obchod. Pro Diplomat Hotel Prague byla na základě popisu a osobních zkušeností vybrána následující klíčová slova. Velký, starý, konference, zápach (hlavně cigaretový kouř) a služby. 2.3. Úprava a zpracování sebraných dat Po úspěšném sesbírání dat z obou zmíněných portálů a jejich utřídění do předem připravených struktur bylo nutné tato data zkontrolovat a zjistit možné logické chyby a chyby vniklé při přenosu dat z internetových serverů do programu Microsoft Excel. Takto očištěná data šlo zpracovávat textminingovým nástrojem STATISTICA a dataminingovým nástrojem IBM SPSS Statistics. Po zkontrolování a utřídění dat byla data zakódována pro 39

lepší a jednodušší práci s nimi. Všechny proměnné v podobě textu byly převedeny na kategorické proměnné s numerickém označením. STATISTICA je dataminingový nástroj společnosti StatSoft (StatSoft CR s. r. o., 2015), který v sobě ukrývá i textminingový a webminingový modul pro zpracování textu a dat z internetu. Pro textmining nabízí tento software značné možnosti na vstupu a importu dat. Podporuje většinu v současné době používaných typů souborů jako.pdf,.txt,.doc,.xls a mnoho dalších. 2.3.1. Indexace slovních hodnocení programem STATISTICA Indexace je základní proces analýzy nestrukturovaných dat, který program STATISTICA nabízí. Během indexace jsou nestrukturovaná data (v našem případě text) děleny na útvary oddělené mezerou. Tyto útvary (slova) jsou dále analyzovány a program v nich vyhledávání slovní kořeny. Tomuto přístupu se říká stemming, tedy identifikace slov na základě jejich kořene. Slovní kořeny jsou poté označeny jako indexovaná slova. Při zpracování dat používá STASTISTICA stop- listy, tedy seznamy slov, které neindexuje. Do těchto seznamů se zapisují hlavně předložky, spojky, členy, zvratná slovesa a další slova, která přímo nenesou žádnou informaci a pro další analýzu by byla zcela zbytečné. Tím se snižuje celkový počet indexovaných slov a výstup je tak přehlednější. Tabulka 3 Indexovaná slovní hodnocení textminingovým nástrojem STATISTICA zobrazuje indexované stručné a podrobné hodnocení ze serveru TripAdvisor.com. Jak je vidět ve sloupci indexované hodnocení, tento výstup zobrazuje samotné hodnocení jako soubor indexovaných slov. Pokud porovnáme stručné a podrobné hodnocení z tabulek 2 a 3 zjistíme, že nejsou indexována slova jako and, very, the, a, we, were a další, které opravdu pro další analýzu hodnocení nenesou žádný zásadní význam. Součástí tabulky je celkový počet znaků v neindexovaném datovém souboru a celkový počet indexovaných slov. Stručné hodnocení Podrobné hodnocení Délka fráze # Slov Indexované hodnocení 44 3 conveni locat service-friend 237 21 nice family-s room overlook railway station park hotel staff friend help conveni locat within walk distanc city-cent attract overal pleas visit Tabulka 3 Indexovaná slovní hodnocení textminingovým nástrojem STATISTICA Z takto indexovaných slov byl vytvořen seznam indexovaných slov, který zobrazuje tabulka 4 Seznam indexovaných slov včetně jejich četností v datovém souboru. Četnost indexovaných slov zobrazuje druhý sloupek této tabulky a ve třetím sloupci je počet 40

dokumentů (případů v datovém souboru), ve kterých se dané slovo vyskytuje. Čtvrtý sloupec zobrazuje příklady pro jednotlivé indexované soubory. Indexované slovo # # dokumentů Příklad Důležitost attract 1 1 Attractions 70,710678 city-cent 1 1 city-center 70,710678 conveni 2 2 conveniently 100 distanc 1 1 Distance 70,710678 family-s 1 1 family-sized 70,710678 friend 1 1 Friendly 70,710678 help 1 1 Helpful 70,710678 hotel 1 1-70,710678 locat 2 2 Located 100 nice 1 1-70,710678 overal 1 1 Overall 70,710678 overlook 1 1 Overlooking 70,710678 park 1 1-70,710678 pleas 1 1 Pleased 70,710678 railway 1 1-70,710678 room 1 1-70,710678 service-friend 1 1 service-friendly 70,710678 staff 1 1-70,710678 station 1 1-70,710678 visit 1 1-70,710678 walk 1 1 Walking 70,710678 Tabulka 4 Seznam indexovaných slov včetně jejich četností v datovém souboru Nevýhodou tohoto způsobu zpracování textových dokumentů je spojování slov se stejným kořenem. Příkladem může být hned prví indexované slovo v tabulce 4. Indexované slovo attract zde odpovídá podstatnému jménu attractions. Nástroj by k tomuto kořenu přiřadil i sloveso attract, které může být vyloženo v jiném kontextu. Jak již bylo zmíněno, textminingový nástroj STATISTICA indexuje pouze slova, která odpovídají předem zvolenému kritériím. Těchto kritérií umožňuje tento nástroj zvolit opravu velké množství. Zde je výčet těch nejdůležitějších. Stemming language (těch STATISTICA nabízí 13). Procentuální výskyt slov v dokumentech (indexace pouze slov s minimálně 1% zastoupením ve vybraných případech). Maximální počet zvolených slov. Zvolení znakové sada povolené pro indexaci. Jakýkoliv jiný znak nebude nástroj identifikovat. Zvolení stop-listu a jeho úprava. 41

Podrobné volení parametrů slov k indexaci (minimální a maximální délka slova, minimální délka kořene slova, minimální počet samohlásek ve slově, maximální počet samohlásek, souhlásek, zdvojení znaků a interpunkce). Provedená indexace a její tabulkové zobrazení umožňuje vytvoření seznamu klíčových slov. V další části budeme jednotlivě analyzovat každý hotel a server. Proto bude možné pro každý hotel identifikovat hlavní klíčová slova. Klíčovými slovy jsou ta slova, která se objevují v největším počtu hodnocení a také mají největší počet výskytu. Je možné, že se někdy slovo objeví v jednom hodnocení vícekrát, což pouze dokládá klíčovou úlohu tohoto slova. Pro přesné ověření důležitosti vybraných klíčových slov lze využít i textminingový nástroj, který jednotlivým indexovaným slovům přiřazuje na základě jejich výskytu hodnocení důležitosti na stupnici od 1 do 100 (Tabulka 4 sloupec Důležitost). Dalším možným výstupem je vytvoření tzv. word-matrixu, tedy matice všech indexovaných slov a jejich zobrazení u jednotlivých hodnocení. Po vytvoření této matice lze všechna indexovaná slova přesunout zpět do předchozí datové struktury. Příklad wordmatrixu pro stručné a podrobné hodnocení z TripAdvisor.com zobrazuje Tabulka 5 Wordmatrix indexovaných slov. Hodnocení attract city-cent conveni distanc family-s friend help hotel locat nice Stručné - - 1 - - - - - 1 - Podrobné 1 1 1 1 1 1 1 1 1 1 Tabulka 5 Ukázku word- matrixu indexovaných zákaznických hodnocení Tato tabulka nezobrazuje celý word-matrix, který je mnohem rozsáhlejší, ale pouze jeho ukázkovou část. V případě uživatelských hodnocení na serveru Booking.com je třeba vytvořit rozdílné soubory pro pozitivní a negativní hodnocení. Jejich společná analýza by vedla ke zkreslení výsledků a nebylo by možné odlišit negativní a pozitivní skutečnosti. Takto upravený soubor dat s nově vytvořenými proměnnými v podobě indexovaných slov lze využít pro dataminingové nástroje. Jednou z nejčastěji používaných analytických metod je shluková analýza (cluster analysis), která odhaluje skupiny podobných případů na základě jejich matematické vzdálenosti. Stejně jako na vstupu, tak i na výstupu je program STATISTICA multifunkční. Nejenže podporuje celé spektrum formátů předchozích verzí programu, ale i export dat do jiných formátů jako.pdf,.txt,.xls a dalších. Velmi užitečným nástrojem je export dat do formátů používaných statistickými programy IBM SPSS Statistics (.sav) a SAS (.sd2). Díky tomu je možné software STATISTICA využít jako nástroj pro předzpracování nestrukturovaných dat a následně tato data přenést do jiného nástroje. V tomto případě byl 42

druhým nástrojem IBM SPSS Statistics, který oproti STATISTICE nabízí velké množství analytických nástrojů a metod, velkou rychlost zpracování velkého objemu dat a intuitivní ovládání a tvorbu výstupů. V následujících analýzách proto byly použity oba tyto nástroje. STATISTICA pro analýzu nestrukturovaných dat a IBM SPSS Statistics pro ostatní analýzy. 2.4. Sumarizace a analýza dat - Booking.com Tato část byla věnována sumarizaci a analýze dat sebraných ze serveru Booking.com. Před samotnou sumarizací byla provedena shluková analýza celého datového souboru pro odhalení možných vazeb a souvislostí mezi jednotlivými proměnnými. 2.4.1. Shluková analýza dat Pro shlukovou analýzu byl využit software IBM SPSS Statistics, který nabízí možnost tvorby shluků na základě měření matematické vzdálenosti jednotlivých částí zvoleného datovém souboru. Pro toto měření byl na základě různých druhů proměnných vybrán nástroj Log-likehood, který umožňuje měření vzdálenosti jednotlivých dat na základě jejich pravděpodobnostního rozdělení. Pro tvorbu klastrů byl vybrán nástroj TwoStep Cluster, který umožňuje shlukovat kategorické a spojité proměnné. Tento způsob shlukové analýzy vytváří automatický nebo předem zvolený počet shluků, do kterých jsou řazeny jednotlivé případy na základě jejich matematické vzdálenosti podle zvolených proměnných. Díky shlukové analýze je možné určit specifické zákaznické segmenty. V tomto případě bylo k analyzování vybráno celkem 16 proměnných. Z toho 13 nominálních (hotel, země, jazyk hodnocení, pohlaví, stručné slovní hodnocení, dovolená, rodina, pracovní cesta, par, jednotlivec, skupina přátel, pozitivní hodnocení, negativní hodnocení), jedna ordinální (délka pobytu) a 2 škálové (datum hodnocení a celkové hodnocení). Provedená shluková analýza však nebyla úspěšná, kvůli vysokému počtu chybějících hodnot v sesbíraných případech. Vzhledem k tomu vzniklo příliš velké množství shluků a mnoho případů nebylo do shluků ani zahrnuto. Proto byla shluková analýza využita pro ověřený současných zákaznických segmentů, které se zákazníci dobrovolně volí při zadávání hodnocení na tomto serveru, a rozdělení zákaznických hodnocení do shluků podle toho, zda obsahovala pozitivní a negativní slovní hodnocení či nikoliv. Takto ověřené shluky je možné použít při další analýze a sumarizaci sebraných dat. První případ ověření segmentace zobrazuje graf 1 Segmentace zákaznických hodnocení podle volených štítků (Booking.com). V tomto případě se k ověření přistoupilo z toho důvodu, že některá hodnocení obsahují nelogické kombinace volených štítků (Rodina 43

a Pracovní cesta). Největším shlukem je s počtem 918 hodnocení segment Dovolená- páry, který tak tvoří 32, 66 % z celkové počtu hodnocení. Druhým nejvýznamnějším segmentem je Jednotlivec- pracovní cesty s 556 hodnoceními (19,78 %). Druhou polovinu tvoří zbylé segmenty s velmi podobným zastoupením. Graf 1 Segmentace zákaznických hodnocení podle volených štítků (Booking.com) V druhé případě byla zákaznická hodnocení rozdělena do čtyř shluků podle toho, zda zákazník zanechal slovní hodnocení či ne, případně jaké slovní hodnocení zanechal. Toto rozdělení zobrazuje Graf 2 Segmentace hodnocení na základě slovních hodnocení. Největší skupinou jsou hodnocení bez slovní části. Těch základní datový soubor obsahuje 1211, což představuje 43 % všech dostupných zákaznických hodnocení. Takto vysoké číslo u tohoto segmentu poukazuje na fakt, že zákazníci nechtějí trávit a ztrácet svůj čas psaním recenzí a vystačí si pouze s číselným ohodnocením jejich pobytu. Na jednu stranu se jedná o logický postoj v dnešní uspěchané době, ale na stranu druhou tato číselná hodnocení bez slovního komentáře nejsou pro další zákazníky zajímavá. Nejmenším segmentem jsou zcela negativní hodnocení. K těm je třeba přistupovat obezřetně, protože některá negativní hodnocení nenesou znaky negativních hodnocení, a proto může být výsledné číslo ještě nižší. Příkladem těchto negativních hodnocení je například: Nothing, Everything was great! a další. 44

Graf 2 Segmentace hodnocení na základě slovních hodnocení (Booking.com) Díky takto ověřené segmentaci bylo možné určit zákaznické segmenty, které nejčastěji zanechávají hodnocení na serveru Booking.com. Tento vztah zobrazuje Graf 3 Pravděpodobnost zanechání slovního hodnocení pro jednotlivé zákaznické segmenty. Segmentem s největším počtem hodnocení bez slovního komentáře je segment Jednotlivecpracovní cesta s 57% pravděpodobností absence slovního komentáře. Tento segment je i velmi kritický, protože měl druhý nejvyšší podíl negativních hodnocení a nejnižší podíl pozitivních hodnocení. Nejkritičtějším segmentem je segment Pracovní cesta. Téměř 5 % všech hodnocení bylo pouze negativních a podíl pozitivních hodnocení byl druhý nejmenší v celém datovém souboru. Segmenty Dovolená- pár, Dovolená- rodina a Dovolenájednotlivec mají velmi podobné charakteristiky. Tyto segmenty mají nejnižší relativní počet hodnocení bez slovního komentáře, nejmenší podíl negativních hodnocení v rozmezí od 1, 67 % do 2, 07 % a největší podíl hodnocení s pozitivním a negativním komentářem. To odpovídá dobrým zkušenostem s hotelem a poskytovanými službami s malými výhradami. Z tohoto pohledu jsou segmenty Dovolená pár, Dovolená- jednotlivec a Dovolenárodina nejvýznamnějšími segmenty pro tvorbu slovních hodnocení na serveru Booking.com. Zaměření na tyto segmenty může přinést zvýšení povědomí o hotelu na serveru Booking.com a potenciální nárůst slovních hodnocení, které jsou pro zákazníky přínosné při rozhodování o daném hotelu. Segmenty Pracovní cesta a Jednotlivec- pracovní cesta mohou hotelům sloužit jako zdroj kritických pohledů na poskytované služby a hotely z nich mohou čerpat poznatky pro zlepšení a případnou úpravu služeb. 45

Graf 3 Pravděpodobnost zanechání slovního hodnocení pro jednotlivé zákaznické segmenty (Booking.com) 2.4.2. Sumarizace sebraných dat Sběrem dat byl vytvořen datový soubor s celkovým počtem 2 811 zákaznických hodnocení ve 35 jazykových mutacích. Graf 4 Počet hodnocení jednotlivých hotelů zobrazuje celkový přehled hodnocení a jejich rozdělení mezi hotely. Graf 4 Počet hodnocení jednotlivých hotelů (Booking.com) Nejoblíbenějším hotelem s největším počtem hodnocení z vybraných hotelů byl Chopin Hotel Prague, který na serveru Booking.com ke dni 19. 1. 2015 obsahoval 1220 zákaznických hodnocení. Ostatní počty hodnocení jsou uvedeny v příslušném sloupci pro každý hotel jednotlivě. 46

Graf 5 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (Booking.com) Aplikací segmentace zákaznických hodnocení na základě zvolených štítků na celkový počet hodnocení v jednotlivých hotelech bylo možné určit nejvýznamnější a nejčastěji zastoupené zákaznické segmenty pro tyto hotely. Toto rozdělení zobrazuje graf 5 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (Booking.com). Použitelnost této aplikace dokazuje konferenční Diplomat Hotel Prague, jehož hodnocení ve více než 50 % případů pocházejí od segmentů spojených s pracovními cestami, respektive kongresy a konferencemi. Z pohledu pracovních cest stojí na opačném konci Chopin Hotel Prague, který nabízí pouze jednu konferenční místnost. Díky své poloze ale slouží korporátním klientům, kteří v Praze pouze přespávají. To dokazuje necelých 20 % hodnocení od zákazníků na pracovní cestě. Pro tento hotel jsou nejvýznamnější segmenty Dovolená- pár a Dovolená- přátelé. V případě andel s Hotelu Prague jsou nejvýznamnějšími segmenty Dovolená- pár a zákazníci na pracovní cestě (Pracovní cesta a Jednotlivec- pracovní cesta). Tyto segmenty se podílejí na téměř 65 % všech hodnocení. Čtvrtým hotelem je angelo Hotel Prague. Ten má velmi podobné podíly jednotlivých segmentů jako andel s Hotel Prague. Jediným rozdílem je vyšší zastoupení segmentu Dovolená- pár a nižší zastoupení segmentů Dovolená- rodina, Dovolená- přátelé a Dovolená- jednotlivec. 47

Jak již bylo zmíněno dříve, hodnocení se na serveru Booking.com nacházejí celkem v 35 jazykových mutacích. Graf 6 Počet zákaznických hodnocení v jednotlivých jazycích (Booking.com) zobrazuje celkové počty hodnocení v jednotlivých jazycích. Graf 6 Počet zákaznických hodnocení v jednotlivých jazycích (Booking.com) Tento graf potvrzuje celkový počet hodnocení bez slovního hodnocení. Těch bylo v datovém souboru 1211. K jazykům s největším počtem hodnocení patří angličtina (522 hodnocení), němčina (249 hodnocení), ruština (150 hodnocení), čeština (91 hodnocení) a italština (84 hodnocení). Ostatní jazyky jsou zastoupeny v počtu menším než 70 hodnocení. Pro další analýzu byla vybrána pouze hodnocení v anglickém jazyce a to z následujících důvodů. Angličtina je celosvětově používaným jazykem a hodnocení na OTAs vždy agregují největší množství anglických hodnocení. Program STASTISTICA nabízí sice 13 jazykových mutací, ale pouze angličtina má ověřenou funkčnost (Lustigová, a další, 2014). Ostatní jazyky obsahují různé znaky, které jsou buď vypouštěny či nahrazovány jinými znaky, a proto dochází k deformaci dat. Příkladem jsou různé přehlasované znaky nebo v případě ruského jazyka azbuka. Možným alternativním přístupem je translace jednotlivých jazyků do zvoleného základního jazyka. Zde nastává problém ve strojové translaci jednotlivých slov, protože ta není nikdy přesná a nedokáže překládat slova na základě jejich kontextu. Autorský překlad 48

jednotlivých hodnocení je vázán na perfektní znalost těchto jazyků a lze jej považovat za časově náročný a tím pádem i neefektivní. Rezervační portál Booking.com je celosvětové používaným nástroje pro výběr a rezervace ubytovacích zařízení, což dokazuje i rozložení hodnocení podle 87 zdrojových zemí hodnotitelů. Nejčastější zdrojové země s více než 100 hodnoceními zobrazuje Tabulka 6 Absolutní a relativní četnost hodnocení podle zdrojové země hodnotitele (Booking.com). 49 Počet hodnocení Zdrojová země Absolutní Relativní Česká republika 287 10% Itálie 129 5% Německo 387 14% Rakousko 160 6% Rusko 252 9% Slovensko 196 7% Velká Británie 109 4% Tabulka 6 Absolutní a relativní četnost zákaznických hodnocení podle zdrojové země hodnotitele (Booking.com) Složení těchto nejvýznamnějších zdrojových zemí zcela odpovídá i výčtu nejvýznamnějších zdrojových zemí pro cestovní ruch v České republice. Nejvýznamnější skupinou jsou němečtí zákazníci, který využívají vysokého standardu, na který jsou zvyklí z německých hotelů řetězce Vienna International Hotels & Resorts. Druhou největší skupinu tvoří tuzemští hosté, a to díky poměrně velkému množství kongresových akcí probíhajících ve vybraných hotelech. Pomocí celkové počtu hodnocení od zákazníků z vybraných regionů lze sledovat i vliv vnějších faktorů na počet hostů ve vybraných hotelech. Praktickým příkladem je rusko- ukrajinský konflikt na poloostrově Krym. Český statistický úřad poukazuje na 26, 3% úbytek hostů z Ruska v poslední kvartálu roku 2014 (ČTK, 2015). Při pohledu na graf 7 Vývoj počtu hodnocení ruských hostů v časovém období leden 2014 leden 2015 (Booking.com) je tento trend zcela patrný. S drobnými výkyvy docházelo již v průběhu roku 2014 k celkovému snižování počtu hodnocení od hostů z Ruska, což vedlo až k velmi nízkému počtu hodnocení v lednu 2015. Při porovnání počtu hodnocení v měsíci lednu za roky 2014 (I 2014) a 2015 (I 2015) je patrný velký úbytek ruských hostů v pražských hotelech Vienna International Hotels & Resorts. Na začátku roku 2014 se počet hodnocení vyšplhal na 31 hodnocení. O rok později, tedy v roce 2015, byl tento počet snížen na pouhých 9 hodnocení. Lze předpokládat, že se toto číslo ještě mírně navýší, a to hlavně proto, že data obsahují pouze hodnocení do 19. 1. 2015. Nicméně klesající trend je z dostupných dat patrný.

Graf 7 Vývoj počtu hodnocení ruských hostů v časovém období leden 2014 leden 2015 (Booking.com) Sledováním počtu hodnocení v čase byla odhalena sezónnost poptávky po vybraných hotelech Vienna International Hotels & Resorts. Tento vývoj pro jednotlivé hotely zobrazuje graf 8 Vývoj počtu hodnocení ve vybraných hotelech v období říjen 2013 leden 2015 (Booking.com). Na ose x jsou zaneseny jednotlivé měsíce ve formátu římské číslice označující číslo měsíce a dvouciferného čísla, které označuje daný rok. Údaje zobrazují období od října 2013 do ledna 2015. Z tohoto vývojového diagramu je patrné, že Diplomat Hotel Prague má díky svému zaměření na kongresové hosty slabou sezónu pouze na přelomu roku, kdy mají firmy vyčerpaný rozpočet z přechozího roku a rozpočet na nový rok nebývá stanoven nebo odsouhlasen. Ostatní hotely jsou rovnoměrně vytíženy celoročně s drobným výkyvem v měsících prosinci a únoru. Díky svému zaměření a velkému rozsahu služeb jsou hotely schopné mimosezonu kongresových akcích (období leden březen) vyplnit jinými hosty. Od konce března přichází nárůst kongresových akcí zhruba do období dovolených, tedy do konce června. Poté jsou kongresoví hosté opět nahrazeni dovolenkáři a vracejí se s nástupem měsíce října. Nízký počet hodnocení v prosinci je dán hlavně velkým množství korporátních akcí, nejčastěji vánočních večírků, při kterých mají hosté svůj pobyt zprostředkovaný zaměstnavatelem, a proto nejsou motivováni vkládat hodnocení na recenzní nebo rezervační portály. 50

Graf 8 Vývoj počtu hodnocení ve vybraných hotelech v období říjen 2013 leden 2015 (Booking.com) Vedle počtu hodnocení a jeho vztahu k vybraným proměnným je nutné sledovat i jejich kvalitu. Tedy slovní a číselné hodnocení. Server Booking.com nabízí číselné hodnocení hotelu na stupnici od 1 do 10 a slovní hodnocení rozdělené na pozitivní a negativní hodnocení. Slovní hodnocení lze využít k identifikaci hlavních faktorů, klíčových slov, které zákazníkovi zlepšily, případně zhoršily, celkový dojem z poskytovaných služeb a pobytu v hotelu. Celkový počet jednotlivých hodnocení zobrazuje graf 9 Počet jednotlivých číselných hodnocení v datovém souboru (Booking.com). Graf 9 Počet jednotlivých číselných hodnocení v datovém souboru (Booking.com) 51

Díky vysokému standardu služeb ve všech vybraných hotelech se číselná hodnocení pohybují nejčastěji v rozmezí od 7, 6 do 10, což odpovídá slovnímu hodnocení GOOD EXCEPTIONAL. Osa Celkové hodnocení je rozdělena po 0, 2 bodech. Pokud budeme uvažovat dělení po celých číslech, bude nejčastějším intervalem hodnocení 9 10. Průměrné hodnocení 8, 473 ukazuje na poměrně nízký počet horších hodnocení. Takto vysoká hodnocení vypovídají o vysokém standardu nabízených služeb a dlouhodobému udržování tohoto standardu. Kdyby bylo průměrné hodnocení nižší, což by mohlo být způsobeno například výkyvy v kvalitě poskytovaných služeb, měl by hotel sledovat poskytované služby a snažit se je zlepšit. Vedle celkového počtu hodnocení a průměrné úrovně hodnocení je nutné sledovat i hodnocení, která se vymykají normálnímu rozdělení a jsou takzvanými outliers. Pro zobrazení těchto hodnot se používá boxplot, který pro jednotlivé hotely zobrazuje graf 10 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (Booking.com). Díky takto sestaveným grafům bylo možné identifikovat číselně označená hodnocení (toto označení vychází z čísla případu v datovém souboru), která se vymykají tomuto normálnímu rozdělení. Graf 10 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (Booking.com) Tato hodnocení je důležité dále podrobně zkoumat a hledat v nich faktory, které ovlivnily hodnocení hostů. Navíc mohou sloužit jako zdroj velmi přísné kritiky pro zlepšování poskytovaných služeb a eliminaci výkyvů v kvalitě těchto služeb. 52

2.4.3. Analýza nestrukturovaných dat a abnormálních hodnocení Díky textminingovému nástroji programu STATISTICA bylo možné analyzovat nestrukturovaná data. Jak již bylo zmíněno v předchozí části při výčtu jazykových mutací slovních hodnocení, pro textovou analýzu byla zvolena pouze hodnocení v anglickém jazyce. Díky této analýze bylo možné stanovit klíčová slova nejen k jednotlivým hotelům, ale k pražské části hotelového řetězce Vienna International Hotels & Resorts jako celku. Takto stanovená klíčová slova bude možné porovnat s klíčovými slovy identifikovanými v deskriptivní části jednotlivých hotelů. Před samotným provedením textminingu bylo nutné nastavit samotný textminer, nástroj provádějící indexaci slovních hodnocení, tak aby byla získána pouze ta nejdůležitější slova. Jako stemmingu language byla vybrána angličtina doplněná o upravený stop-list. Vzhledem k celkovému počtu 522 slovních hodnocení v anglickém jazyce byla zvolena minimálně 5% hladina výskytu indexovaných slov v datovém souboru. Aby nedošlo ke zkreslení výsledku, pozitivní a negativní hodnocení byla analyzována odděleně. Dále byla stanovena hodnota minimální důležitosti indexovaných slov na úrovni 50 bodů. Při použití všech stanovených parametrů byl získán seznam pozitivních klíčových slov pro celý datový soubor, který zobrazuje tabulka 4 Seznam indexovaných pozitivních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com). Celkem bylo indexováno 41 slov, ale po filtraci pouze těch nejdůležitějších zůstal seznam 12 slov, která nejvíce popisují obsah pozitivních hodnocení. Počet Počet hodnocení, ve kterých se vyskytuje Důležitost breakfast 196 190 72,20 clean 125 122 57,30 comfort 85 80 51,79 good 233 186 93,26 help 91 86 50,81 hotel 203 144 100,00 locat 266 248 88,14 room 219 183 91,90 staff 175 172 67,35 station 157 136 71,33 train 89 76 54,15 walk 81 68 53,69 Tabulka 7 Seznam indexovaných pozitivních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com) K těmto nejdůležitějším indexovaným slovům lze připojit výčet dalších indexovaných slov s celkovým počtem jejich výskytu v datovém souboru uvedeném v závorce za každým zmíněným slovem. Tato slova nesplňovala stanovenou podmínku 53

minimální důležitosti a patří mezi ně slova milý (83 hodnocení), blízko (82 hodnocení), excelentní (82 hodnocení), přátelský (74 hodnocení), skvělý (70 hodnocení), město (54 hodnocení) a centrum (57 hodnocení). Jak z tabulky nejdůležitějších slov, tak i z následujícího výčtu je patrné, že hosté byli spokojeni hlavně se samotným hotelem, jeho polohou, dopravní dostupností (metro, vlak, stanice) a zaměstnanci hotelu. O dobré kvalitě poskytovaných služeb mluví i velký výskyt pozitivních přídavných jmen. Podle stejných parametrů byla analyzována i negativní hodnocení s tím rozdílem, že byla snížena minimální úroveň důležitosti na 40, a to kvůli nižšímu počtu a rozsahu negativních hodnocení. Tabulka 8 Seznam indexovaných negativních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com) zobrazuje výčet těchto klíčových slov pro negativní hodnocení. Nejčastěji si hoteloví hosté stěžovali na pokoje, jejich vybavení a jejich vzhled. S tím je spojená i kritika postelí. Slovo park se pak nejvíce vztahuje k Chopin Hotelu Prague, který leží v blízkosti parku u pražského hlavního vlakového nádraží, ve kterém bývá velké množství žebrajících lidí a bezdomovců, což hotelovým hostům příliš nevyhovuje. Počet Počet hodnocení, ve kterých se vyskytuje Důležitost bed 27 20 40,68 breakfast 59 57 47,1 hotel 87 67 72,43 park 33 25 49,29 room 134 90 100 Tabulka 8 Seznam indexovaných negativních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com) Prvním indexovaným slovem, které se jenom těsně nevešlo do zvolené hladiny důležitosti je slovo nothing, které má sice větší počet výskytu v datovém souboru, vyskytuje se ve 44 případech, ale hladina důležitosti se pohybuje pod zvolenou úrovní. Stejně jako v u pozitivních hodnocení doplníme tento seznam o indexovaná slova s počtem jejich výskytu v datovém souboru v závorce, která nesplnila požadovanou důležitosti. Mezi těmito slovy bylo wifi (36 hodnocení), personál (24 hodnocení), drahý (18 hodnocení) a recepce (17 hodnocení). Následující část je věnována jednotlivých hotelům Vienna International Hotels & Resorts. Díky nižšímu počtu hodnocení oproti celku jsou jak negativní, tak pozitivní indexovaná slova uvedena ve společné tabulce. Tato slova je možná porovnat s dříve identifikovanými klíčovými slovy. Součástí této části je i pohled na dříve identifikované abnormálně negativní a jejich obsah. 54

Positivní hodnocení Negativní hodnocení 2.4.3.1. Analýza slovních a abnormálních hodnocení hotelu andel s Hotel Prague V přechozích částí, která se zabývala charakteristikou hotelu, bylo identifkováno pět základních klíčových slov, a to slova moderní, lokalita, metro, obchodní centrum a služby. Z tabulky 9 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu andel s Hotel Prague (Booking.com) je patrné, že hosté byli nejvíce spokojeni s využitým pokojem, umístěním hotelu a kvalitou poskytovaných služeb. Kvalitu servisu potvrdilo i přátelské hodnocení personálu. Velmi dobře byla také hodnocena snídaně, čistota a dostupnost metra Anděl. Při zahrnutí dalších prostředků hromadné dopravy (tramvaj, autobus, popřípadě vlak) by byla důležitost této položky nejvyšší s počtem 27 hodnocení. V pozitivních hodnoceních bylo také velké množství pozitivních přídavných jmen jako například dobrý (18 hodnocení), excelentní (7 hodnocení) a perfektní (7 hodnocení). Pokud tato indexovaná slova porovnáme s dříve identifikovanými klíčovými slovy, je patrné, že obsah slovních hodnocení tento výběr potvrzuje v třech případech z pěti. Hotel není vnímán svými hosty jako moderní a blízké obchodní centrum není tak silnou stránkou, jak by se mohlo zdát. Indexované slovo Počet Počet hodnocení s indexovaných slovem Příklad Důležitost room 22 17-63,58 comfort 12 7-60,14 staff 21 20-49,47 locat 23 23 located 49,47 good 18 17-46,13 metro 15 13-44,96 clean 16 15-43,76 breakfast 18 18-43,76 room 19 12-100,00 bad 7 3-77,46 breakfast 6 4 breakfast 53,50 free 6 4 Free wifi 58,62 bar 5 4-44,76 Tabulka 9 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu andel s Hotel Prague (Booking.com) Součástí této tabulky jsou i negativní indexovaná slova. Z výčtu je patrné, že ne všichni hosté byli s vybraným pokojem a snídaní zcela spokojeni. Vzhledem ke standardizaci poskytovaných služeb je tento fakt způsoben hlavně individuálními požadavky jednotlivých zákazníků. Očekávaným kritizovaným bodem je Wi-Fi připojení v hotelu, které je v základní neplacené verzi pomalé a nestabilní. Jediným negativním přídavným jménem je slovo špatný, které je směřováno k nabídce baru Oscar s. 55

Pro hotel andel s Hotel Prague byly identifikovány pouze dvě abnormální hodnocení. Prvním hodnocení bylo od ruského páru bez slovního komentáře. Druhé hodnocení bylo na informace bohatší. Zákazník v něm upozorňoval na jeho opakované návštěvy tohoto hotelu a na snížení úrovně poskytovaných služeb při posledním pobytu. Hlavním problémem byla neschopnost pracovníků recepce vyřešit jeho požadavky na teplou vodu v ranních hodinách (7:45 8:00), nedostatečný úklid pokoje a koupelny a celkově špatný stav pokoje. Zákazník poukazoval na díry ve stropě po opravě klimatizační jednotky. Dalším negativním vlivem byla téměř nefunkční Wi-Fi síť. 2.4.3.2. Analýza slovních a abnormálních hodnocení hotelu angelo Hotel Prague angelo Hotel Prague byl charakterizován klíčovými slovy designový, moderní, vřelý, služby a lokalita. Tabulka 10 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu angelo Hotel Prague (Booking.com) stejně jako u předchozího hotelu zobrazuje pozitivní a negativní indexovaná slova. K nejčastěji zmiňovaným slovům opět patřila snídaně a pokoj. Některá slova lze přiřadit jako doplňující charakteristiky k dalším indexovaným slovům, například čistý a komfortní jako charakteristiku pokoje, přátelský a nápomocný jako charakteristiku personálu. Ve výčtu pozitivních slov se nachází velké množství pozitivně laděných přídavných jmen (dobrý, perfektní, excelentní), která vypovídají o celkově velké spokojnosti hostů s tímto hotelem. Při porovnání nejdůležitějších indexovaných slov a identifikovaných klíčových slov můžeme dojít k závěru, že pro hosta není tak důležitý samotný styl hotelu a jeho design, ale spíše poloha hotelu, jeho dostupnost a kvalita poskytovaných služeb a pokojů. U negativních hodnocení je nejčastěji zmiňovaným slovem pokoj. Opět se jedná o individuální požadavek klienta, kterému nemusí standardní vybavení zcela vyhovovat. Dalším negativně hodnoceným elementem byla Wi-Fi síť, které není dostatečně stabilní a kvalitní. Velkým mínusem tohoto hotelu je poměrně drahé parkování, které zmiňují hosté ve svých hodnoceních. Pro angelo Hotel Pragu byly identifikovány tři abnormálně nízká hodnocení. První byl slovenský muž na pracovní cestě, který poukazoval na předražené parkování s cenou 850 Kč na jednu noc. Druhé hodnocení od německého turisty poukazující na špinavý pokoj a nefunkčního Wi-Fi připojení. Poslední hodnocení obsahovalo kritiku pracovníků recepce kvůli nízké informovanosti o možných výletech a turistických cílech. 56

Positivní hodnocení Negativní hodncoení Indexované slovo Počet Počet hodnocení s indexovaných slovem Příklad Důležitost good 47 32-100,00 breakfast 43 41-74,36 room 41 36-80,44 locat 39 36 location 72,76 staff 33 32-64,17 clean 27 26-58,41 nice 23 22-54,23 excel 19 17 excelent 52,02 everyth 17 15 everything 49,71 friend 17 17 friendly 44,72 metro 15 15 Underground 42.01 help 15 15 helpful 42,01 comfort 14 14 comfortable 40,58 great 13 12-42,01 room 25 15-100,00 park 12 10 parking 50,40 wifi 12 12-43,64 Tabulka 10 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu angelo Hotel Prague (Booking.com) 2.4.3.3. Analýza slovních a abnormálních hodnocení hotelu Chopin Hotel Prague Chopin Hotel Prague má ze všech pražských hotelů řetězce Vienna International Hotels & Resorts nejlepší polohu, protože leží v blízkosti Václavského náměstí, historického centra Prahy, hlavního vlakového nádraží a dalších významných lokalit. Nejvýznamnějších indexovaným slovem bylo slovo stanice s celkovým počtem 301 hodnocení následované slovem lokalita se 164 hodnoceními, což dokazuje tabulka 11 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Chopin Hotel Prague (Booking.com). Mezi další pozitivně hodnocená slova lze zařadit pokoj, snídaně a služby. Hlavní silné stránky hotelu. Stejně jako u hotelu angelo Hotel Prague lze některá indexovaná slova vzájemně propojit jako například přátelský a nápomocný personál. Nejsilnějším parametrem tohoto hotelu ale zůstává jeho poloha, vlaková dostupnost blízkost prostředků MHD, blízkost městského a historického centra Prahy. V negativních hodnoceních byla nejčastěji zmiňována slova snídaně, pokoj a hotel. Při porovnání indexovaných a klíčových slov lze říci, že popis hotelu a jeho prezentace téměř odpovídá zákaznickým hodnocením, a proto jsou hotelem poskytované informace pro zákazníky přínosné. 57

Positivní hodnocení Negativní hodnocení Indexované slovo Počet Počet hodnocení s indexovaných slovem Příklad Důležitost locat 164 149 location 99,7521681 station 301 main train 260 station 100 room 119 96-92,8108905 good 115 95-89,27652 breakfast 88 85-68,2163129 staff 87 86-66,3772596 clean 69 68-59,2861829 walk 65 54 walking distance 68,5782057 help 60 55 helpful 59,7022314 close 53 city centre, old town, main 47 station 56,7258476 comfort 45 45-47,1987582 great 36 32-46,6713812 nice 35 30-47,1987582 excel 34 32 excelent 43,3726656 friend 33 32 fiendly 41,6253921 old town 58 53-40,4186017 breakfast 38 38-52,4749768 hotel 25 18-64,2684587 room 64 44 -- 100 Tabulka 11 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Chopin Hotel Prague (Booking.com) Chopin Hotel Prague zaznamenal jediné hodnocení s hodnotou 0. Toto hodnocení ovšem neobsahovalo žádné podrobné hodnocení a ani slovní komentář, a proto je možné, že se jednalo pouze o chybu při zadávání hodnocení. Druhé nejhorší hodnocení mělo hodnotu 2, 5 a to hlavně kvůli nefunkční klimatizaci, která způsobila extrémně vysokou teplotu v pokoji hosta. Další hodnocení s hodnotou 3, 8 bylo od korejského turisty, který poukazoval na špinavé nádobí během snídaně. Další negativní hodnocení bylo od turecké rodiny, která využila rodinný pokoj s přistýlkou, který byl tak malý, že se druhý den museli přesunout do jiného hotelu. Pro tato hodnocení je společně, že jsou všechny tři z července 2014, tedy jeden z nejvytíženějších měsících v tomto hotelu. Poslední abnormální hodnocení bylo od zákazníka, který velmi pozitivně hodnotil personál recepce, kvalitu snídaně. Na druhou stranu špatně hodnotil chování a kvalitu housekeepingu, kuřácké pokoje a spojené balkóny dvou sousedících pokojů. 58

Positivní hodnocení Negativní hodnocení 2.4.3.4. Analýza slovních a abnormálních hodnocení hotelu Diplomat Hotel Prague Posledním hotelem je kongresový hotel Diplomat Hotel Prague. Stejně jako u ostatních hotelů je nejlépe hodnocena poloha hotelu a jeho dostupnost z letiště a pomocí MHD. Zákazníci byli také spokojeni se snídaněmi, pokojem a hotelovým personálem, což dokazuje Tabulka 12 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Diplomat Hotel Prague (Booking.com). Z negativních hodnocení je nejvýznamnější samotné zařazení hotelu jako celku do tohoto výčtu, protože se jedná o starší a ne kompletně zrenovovaný hotel, který na některé hosty může působit zanedbaným dojmem. Zajímavý je výskyt slova parkování, protože hotel nabízí velký počet parkovacích prostor. Hlídaných i nehlídaných. Slovo parkování zde bylo zmíněno v kontextu jeho ceny. Stejně jako u předchozích hotelů ve výčtu nechybí pokoj doplněný o koupelnu a negativní přídavné jméno špatný. Při porovnání klíčových a indexovaných slov je patrný značný rozdíl, protože jsou shodná pouze slova poloha a služby To, že je hotel velký a poskytuje převážně konferenční služby, nebylo pro zákazníky tak důležité. Stejně tak, že hotel není renovovaný. Indexované slovo Počet Počet hodnocení s indexovaných slovem Příklad Důležitost good 52 41-86,06 breakfast 46 45-66,67 locat 38 38 located 59,32 room 35 32-61,61 staff 33 33-55,28 metro 27 26-51,82 airport 26 25-50,92 excel 22 19 excellent 50,92 bus 18 15-47,14 hotel 32 26-100 room 26 19-100 park 14 8 parking 97,89 bathroom 9 9-43,30 bed 9 7-52,04 Tabulka 12 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Diplomat Hotel Prague (Booking.com) Vzhledem k tomu, že u tohoto hotelu bylo zaznamenáno nejvíce hodnocení, které se nevešly do normálního rozdělení, byla vytvořena pouze jejich stručná sumarizace. Nejkritizovanějším tématem byla nečistota a špatné vybavení hotelové koupelny. Dále pak sousední staveniště, pach cigaretového kouře na pokojích a poplatky za wellness procedury a parkoviště. 59

2.4.4. Diskuze Na základě provedené explorační analýzy bylo možné určit potenciál dataminingových a textminingových nástrojů pro analýzu dat ze serveru Booking.com. Využití shlukové analýzy nebylo kvůli vysokému počtu chybějících hodnot možné. Z tohoto pohledu není server Booking.com nejlepším zdrojem dat, protože má velmi malé množství obligatorních položek v hodnocení. Pro provedení shlukové analýzy by bylo nutné tato data doplnit, což by s sebou neslo velké riziko zkreslení výsledků. Použitelnost takovýchto výsledků by byla velmi malá. Pro ověření, respektive očištění dat o nelogické spojení volených segmentů na serveru Booking.com, byl zvolený nástroj shlukové analýzy dostačující. Nicméně se pomocí tohoto nástroje nepodařilo zjistit neviditelné vztahy a vazby mezi jednotlivými proměnnými. Využití softwaru IBM SPSS Statistics pro statistickou sumarizaci dat bylo vyhovující. Pomocí jednoduché sumarizace bylo možné určit hotel s největším počtem hodnocení, podíl počtu hodnocení od jednotlivých segmentů na celkovém počtu hodnocení hotelu, pravděpodobnost, že daný zákaznický segment zanechá pozitivní nebo negativní hodnocení, případně hodnocení nezanechá. Dále vývoj počtu hodnocení v čase pro jednotlivé hotely. Díky tomu bylo možné určit hlavní a vedlejší sezonu jednotlivých hotelů. Sledování vývoje počtu hodnocení ruských turistů v posledních 12 měsících odhalilo klesající trend. Ten bylo možné přisoudit hlavně konfliktu na rusko- ukrajinských hranicích a poloostrově Krym. Kvůli tomuto konfliktu se snížil celkový počet ruských a ukrajinských turistů nejen v Praze, ale v celé České republice. Konstrukcí boxplotů bylo možné určit abnormální případy z datového souboru na základě celkového číselného hodnocení. Nestrukturovaná data byla zpracovávána nástrojem STATISTICA. Na základě stemmingu byla indexována hlavní slova hodnocení jednotlivých hotelů, která byla porovnána s předem připravenými klíčovými slovy. Součástí analýzy nestrukturovaných dat byla i stručná charakteristika abnormálních hodnocení. Jejich obsah vyjadřoval převážně velmi negativní osobní zkušenost s hotelem, personálem nebo poskytovanými službami. 60

2.5. Sumarizace a analýza dat - TripAdvisor.com Stejně jako jsme se v přechozí části zabývali sumarizací a analýzou dat sesbíraných ze serveru Booking.com, tak se nyní zaměříme na data sesbíraná z recenzního portálu TripAdvisor.com. 2.5.1. Shluková analýza dat Pro shlukovou analýzu byl opět vybrán nástroj IBM SPSS Statistics a celkem 13 proměnných z datového souboru všech hodnocení ze serveru TripAdvisor.com. Vybranými proměnnými byly hotel, jazyk hodnocení, pohlavní hodnotitele, země, celkové číselné hodnocení, datum pobytu, volený zákaznických segment, hodnocení polohy, ceny, služeb, kvality spánku, čistoty a pokoje. Postup byl zcela totožný jako v případě shlukové analýzy datového souboru zákaznických hodnocení ze serveru Booking.com. Bohužel i se stejným výsledkem, takže výsledná shluková analýza byla velmi nekvalitní. Proto byla opět aplikována pouze jako nástroj dalšího očištění dat a jejich kontroly. Jednou z možností byla segmentace hodnocení na základě dílčích hodnocení. Bohužel ani takto zvolená shluková analýza nebyla kvalitní a vykazoval velké množství chybějících hodnot. Ověřením zákaznické segmentace bylo získáno šest zákaznických segmentů. Zastoupení jednotlivých segmentů v datovém souboru zobrazuje graf 11 Segmentace zákaznických hodnocení podle volených štítků (TripAdvisor.com). Zákazníci serveru TripAdvisor.com si mohou zvolit pouze jedno segmentační označení, která ale není povinné, a proto se v datovém souboru objevuje poměrně značné množství hodnocení bez zařazení do zákaznického segmentu. Tato hodnocení jsou agregována ve skupině Bez segmentu. Graf 11 Segmentace zákaznických hodnocení podle volených štítků (TripAdvisor.com) 61

Nejpočetnějším segmentem jsou páry s celkovým počtem 1185 hodnocení následované zákazníky na pracovní cesta s 538 hodnocení. V porovnání se segmentací provedou u portálu Booking.com je procentuální zastoupení segmentů Páry, Rodina a Přátelé téměř totožné. U segmentu Jednotlivec je viditelný téměř 6% pokles a nejmarkantnější rozdíl je u segmentu Pracovní cesty, kde rozdíl činí téměř 15 %. Tento rozdíl je způsobem hlavně velkým počtem zákazníků bez přiřazeného segmentu (628 hodnocení) a odlišným zaměřením serveru TripAdvisor.com, který slouží primárně aktivnějším cestovatelům. Kromě těchto drobných rozdílů je zastoupení jednotlivých segmentů téměř totožné. 2.5.2. Sumarizace sebraných dat Sběrem dat pro vybrané hotely na serveru TripAdvisor.com bylo získáno celkem 3287 hodnocení. Jejich rozdělení mezi jednotlivé hotely zobrazuje graf 12 Počet hodnocení jednotlivých hotelů (TripAdvisor.com). Graf 12 Počet hodnocení jednotlivých hotelů (TripAdvisor.com) Největší počet hodnocení měl andel s Hotel Prague (1355 hodnocení) následovaný hotelem Diplomat Hotel Prague (951 hodnocení). Velmi překvapujícím byl nízký počet hodnocení u hotelu Chopin Hotel Prague, z čehož lze usuzovat, že servery Booking.com a TripAdvisor.com primárně oslovují rozdílné zákaznické segmenty. Graf 12 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (TripAdvisor.com) zobrazuje složení zákazníků jednotlivých hotelů podle jimi zvoleného zákaznického segmentu. 62

Graf 13 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (TripAdvisor.com) V porovnání se serverem Booking.com je patrný velký výskyt nezařazených hodnocení do zákaznických segmentů, který například u hotelu andel s Hotel Prague činí více než 25 % všech hodnocení. Při komplexním pohledu na všechny hotely a následném porovnání se stejným rozdělením hodnocení podle zákaznických segmentů ze serveru Booking.com je patrný rozdíl v počtu hodnocení segmentu Pracovní cesty, který je u serveru TripAdvisor.com nižší o více než 50 %. Z toho je patrné, že jednotlivé portály využívají různé zákaznické segmenty. Server Booking.com slouží jak zákazníkům, kteří jedou na dovolenou ve svém volném čase, tak zákazníkům na pracovní cestě. Oproti tomu se server TripAdvisor.com zaměřuje spíše na volnočasové a zkušené cestovatele. Všechna hodnocení na serveru TripAdvisor.com mají povinnou slovní část, které je jejich stěžejní částí. Graf 14 Počet zákaznických hodnocení v jednotlivých jazycích (TripAdvisor.com) zobrazuje počty hodnocení v jednotlivých jazycích. Nejvyšší počet hodnocení byl psán v anglickém jazyce (2012 hodnocení) a tvořil tak 61 % veškerých hodnocení ve vybraných hotelech. Takto vysoký počet hodnocení v anglickém jazyce je dán hlavně vysokým zastoupením uživatelů z anglofonních zemí (Velké Británie, Spojené státy americké), kteří tvoří 33 % všech uživatelů hodnotících vybrané hotely, a samotnou povahou serveru TripAdvisor.com. Ten má sloužit jako místo předávání informací mezi zkušenějšími 63

cestovali, mezi kterými je angličtina považována za univerzální jazyk, který dokáže oslovit nejvíce uživatelů. V porovnání se serverem Booking.com mají ostatní jazyky jako třeba němčina, ruština, francouzština a španělština pouze minoritní zastoupení. Graf 14 Počet zákaznických hodnocení v jednotlivých jazycích (TripAdvisor.com) Jak již bylo zmíněno, třetina všech hodnocení pochází od uživatelů z anglofonních zemí. Tabulka 13 Absolutní a relativní četnost hodnocení podle zdrojové země zobrazuje další významněji zastoupené země, ke kterým patří hlavně Německo (6 % hodnocení), Itálie (8 % hodnocení) a Francie (6 % hodnocení). Oproti serveru Booking.com v tomto výčtu zcela chybí Česká republika, což naznačuje, že TripAdvisor.com není zajímavý pro domácí turisty, kteří raději zanechají hodnocení přímo na portálech, kde svoje pobyty rezervují. Počet hodnocení Země Absolutní Relativní Španělsko 108 3% Francie 186 6% Itálie 250 8% Německo 190 6% Rusko 102 3% Velké Británie 770 23% Spojené státy americké 328 10% Tabulka 13 Absolutní a relativní četnost zákaznických hodnocení podle zdrojové země hodnotitele (TripAdvisor.com) Vzhledem k velmi malému počtu hodnocení od uživatelů z Ruska a Ukrajiny nebylo možné jako případě serveru Booking.com určit vliv politických a válečných konfliktů na vývoj počtu hodnocení a zprostředkovaně i vývoj počtu hostů právě z Ruska nebo Ukrajiny. 64

V případě serveru Booking.com bylo možné na základě počtu hodnocení v jednotlivých měsících určitě hlavní sezonu a mimosezonu pro jednotlivé hotely. Graf 15 Vývoj počtu hodnocení ve vybraných hotelech v období červenec 2013 leden 2015 (TripAdvisor.com) zobrazuje toto rozložení pro hodnocení ze serveru TripAdvisor.com. Diplomat Hotel Prague má stejně jako v případě serveru Booking.com malý počet hodnocení v měsíci únoru a klesající počet hodnocení od září do konce roku. Zbylé hotely mají velký počet hodnocení hlavně mezi měsíci květnem a srpnem. Dá se předpokládat, že tento počet přímo souvisí se zákaznickými segmenty Pár, Rodina, Přátelé a Jednotlivec, protože tyto měsíce představují hlavní sezónu dovolených s minimem pracovních cest a kongresových akcí. Nejnižší počet hodnocení získávají hotely na začátku kalendářního roku, hlavně potom v únoru. Graf 15 Vývoj počtu hodnocení ve vybraných hotelech v období červenec 2013 leden 2015 (TripAdvisor.com) Hodnocení na serveru TripAdvisor.com mají jak slovní, tak číselnou část, která je zobrazena zelenými kolečky a každému hotelu je tak možné přiřadit celkové hodnocení na škále od 1 do 5. Graf 16 Počet jednotlivých číselných hodnocení v datovém souboru (TripAdvisor.com) zobrazuje celkový počet jednotlivých hodnocení přidělených vybraným 65

hotelům. O velké spokojenost hostů a dobrých hodnoceních vypovídá celkový počet hodnocení v kategoriích 4 a 5. Těch je dohromady 2795 a tvoří tak 85 % všech hodnocení ve vybraných hotelech. Aby bylo možné porovnat úroveň hodnocení na vybraných portálech, bylo třeba převést desetistupňovou škálu ze serveru Booking.com na pětistupňovou škálu, která je použita ne serveru TripAdvisor.com. Graf 16 Počet jednotlivých číselných hodnocení v datovém souboru (TripAdvisor.com) Toto porovnání zobrazují grafy 17 Rozložení celkových číselných hodnocení na serveru TripAdvisor.com a 18 Rozložení celkových číselných hodnocení na serveru Booking.com. Z tohoto porovnání je patrné, že na serveru Booking.com jsou mnohem vyšší hodnocení, která jsou složena z 96 % z hodnoceních 4 a 5 a zbylá čtyři procenta zůstávají pro hodnocení 1, 2 a 3. U serveru TripAdvisor.com stejná hodnocení zabírají pouze 85 %. Nejmarkantnější rozdíl je u nejvyššího možného hodnocení. Zde je rozdíl mezi vybranými servery téměř 15 %. Hodnocení 4 má velmi podobnou hodnotu, která se liší pouze o 4 %. U nižších hodnocení je rozdíl patrný hlavně v případě hodnocení 1, kterých je na serveru Booking.com pouze 0, 04 %, kdežto na serveru TripAdvisor.com je tento počet více než 30 krát vyšší. Tento rozdíl mezi vybranými servery může být způsoben cestovatelskými zkušenostmi hlavních skupin, protože zkušený cestovatel bývá ve většině případů mnohem kritičtější. 66

Graf 17 Rozložení celkových číselných hodnocení na serveru TripAdvisor.com (vlevo) Graf 18 Rozložení celkových číselných hodnocení na serveru Booking.com (vpravo) Vedle celkového počtu hodnocení a jeho porovnání se serverem Booking.com bylo třeba identifikovat hodnocení, která se vymykají normálnímu rozdělení. Graf 19 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (TripAdvisor.com) opět zobrazuje identifikovaná abnormální slovní hodnocení pro jednotlivé hotely. Graf 19 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (TripAdvisor.com) 67