Aplikace metod předzpracování při dolování znalostí z textových dat

Transkript

1 Mendelova univerzita v Brně Provozně ekonomická fakulta Aplikace metod předzpracování při dolování znalostí z textových dat Diplomová práce Vedoucí práce: doc. Ing. František Dařena, Ph.D. Bc. Michaela Kotíková Brno 2014

2 LIST ORIGINÁLNÍHO ZADÁNÍ DIPLOMOVÉ PRÁCE

3 Tímto bych ráda vyjádřila poděkování svému vedoucímu diplomové práce doc. Ing. Františku Dařenovi, Ph.D. za cenné připomínky, trpělivost a vstřícný přístup.

4 Čestné prohlášení Prohlašuji, že jsem tuto práci: Aplikace metod předzpracování při dolování znalostí z textových dat vypracovala samostatně a veškeré použité prameny a informace jsou uvedeny v seznamu použité literatury. Souhlasím, aby moje práce byla zveřejněna v souladu s 47b zákona č. 111/1998 Sb., o vysokých školách ve znění pozdějších předpisů, a v souladu s platnou Směrnicí o zveřejňování vysokoškolských závěrečných prací. Jsem si vědoma, že se na moji práci vztahuje zákon č. 121/2000 Sb., autorský zákon, a že Mendelova univerzita v Brně má právo na uzavření licenční smlouvy a užití této práce jako školního díla podle 60 odst. 1 Autorského zákona. Dále se zavazuji, že před sepsáním licenční smlouvy o využití díla jinou osobou (subjektem) si vyžádám písemné stanovisko univerzity o tom, že předmětná licenční smlouva není v rozporu s oprávněnými zájmy univerzity, a zavazuji se uhradit případný příspěvek na úhradu nákladů spojených se vznikem díla, a to až do jejich skutečné výše. V Brně dne 19. května

5 5 Abstract Kotikova, M. Application of preprocessing methods in relation to text mining. Diploma thesis. Brno, 2014 The diploma thesis focuses on unstructured textual data preprocessing in relation to text mining. A series of experiments oriented to text mining is designed and carried out. The effect of different techniques of textual data preprocessing to the entire text mining process and its results is evaluated based on output of the experiments. Keywords methods of textual data preprocessing, stemming, spell check and automatic correction, stop words removal, text mining, classification, clustering, unstructured data, natural language, customer opinion, Weka, SVMlight, Cluto Abstrakt Kotíková, M. Aplikace metod předzpracování při dolování znalostí z textových dat. Diplomová práce. Brno, Diplomová práce se zabývá předzpracováním textu při dolování znalostí z těchto nestrukturovaných textových dat. V rámci práce je navržena a realizována série experimentů zaměřených na text mining. Na základě výstupu těchto experimentů je zhodnocen vliv různých technik předzpracování dat na průběh celého procesu dolování znalostí a na jeho výsledky. Klíčová slova metody předzpracování textových dat, stemming, kontrola a korekce pravopisu, odstranění stopslov, dolování znalostí z textových dat, klasifikace, shlukování, nestrukturovaná data, přirozený jazyk, mínění zákazníků, Weka, SVMlight, Cluto

6 OBSAH 6 Obsah 1 Úvod a cíl práce Úvod Cíl práce Současný stav problematiky Umělá inteligence Dolování znalostí z textových dat Vztah text miningu a data miningu Reprezentace textových dokumentů Model bag-of-words Model vektorového prostoru Výpočet váhy termů Podobnost textových dokumentů Metody předzpracování textových dat Kontrola pravopisu Stemming Odstranění stopslov Klasifikace Metody klasifikace Měření kvality klasifikátoru Shlukování Shlukovací algoritmy Měření kvality shlukování Metodika Použité kolekce textových dat Základní charakteristiky zkoumaných přirozených jazyků Použité softwarové nástroje Předzpracování textových dokumentů Převod textových dokumentů do vektorové reprezentace Weka SVMlight Cluto Použitý hardware Průběh experimentu Nasazení metod předzpracování textových dat Převod textových dat do vektorové reprezentace Nasazení metod dolování znalostí z textových dat

7 OBSAH 7 4 Výsledky experimentů Klasifikace pomocí rozhodovacího stromu Anglický jazyk Německý jazyk Francouzský jazyk Španělský jazyk Srovnání výsledků napříč zkoumanými přirozenými jazyky Klasifikace metodou podpůrných vektorů Anglický jazyk Německý jazyk Francouzský jazyk Španělský jazyk Srovnání výsledků napříč zkoumanými přirozenými jazyky Shlukování Anglický jazyk Německý jazyk Francouzský jazyk Španělský jazyk Srovnání výsledků napříč zkoumanými přirozenými jazyky Diskuze 68 6 Závěr 71 7 Literatura 72 Přílohy 76 A Výsledky experimentů prováděných v programu Weka 77 B Výsledky experimentů prováděných v programu SVMlight 79 C Výsledky experimentů prováděných v programu Cluto 81 D Seznam anglických stopslov 82 E Seznam německých stopslov 85 F Seznam francouzských stopslov 88 G Seznam španělských stopslov 91

8 1 ÚVOD A CÍL PRÁCE 8 1 Úvod a cíl práce 1.1 Úvod Udržení stávajících a získání nových zákazníků nejrůznějších společností je možné podpořit sběrem zpětné vazby klientů týkající se jejich spokojenosti a například i možných návrhů na vylepšení poskytovaných služeb či nabízených výrobků. Jednou z forem zpětné vazby je volné vyjádření názoru přirozeným jazykem v jednoduché textové podobě. Obecně platí, že více dat obsahuje více informací a zároveň i více znalostí. Tedy čím větší počet recenzí je k dispozici, tím kvalitnější znalost lze získat a následně aplikovat při vylepšování služeb. Názory vyjádřené v různých přirozených jazycích ve formě textových dokumentů představují cenný zdroj znalostí, které jsou ukryty ve velkých datových souborech, a pro jejich získání je třeba data analyzovat. Velký objem dat je nutné zpracovat automaticky, neboť manuální analýzu není možné dokončit v přijatelném čase. Odvětví výpočetní techniky věnující se zpracování přirozeného jazyka se zaměřuje na postupy využívané v umělé inteligenci, strojovém učení, statistice a lingvistice. Metody používané v oblasti strojového učení se také využívají v odvětví dolování znalostí z dat. Data mining neboli dolování znalostí z dat je v současnosti stále více využívaným prostředkem k získávání důležitých, zajímavých a skrytých znalostí z nejrůznějších datasetů nashromážděných v rámci rozličných domén a oborů. Princip dolování znalostí z dat spočívá v prozkoumání velkých objemů sebraných dat a v následném nalezení skrytých znalostí. Důležitost získávání nových a zároveň cenných informací v dnešní době konkurenčního trhu a pokroků ve vědě dramaticky roste. Právě díky této skutečnosti se dolování znalostí z dat těší čím dál větší oblibě, ať už v oblasti marketingu, bankovnictví nebo lékařství, kde data mining pomáhá uživatelům k efektivnějšímu rozhodování. Skalská (2010) uvádí, že podle odhadů mají nestrukturovaná textová data ve firmách zastoupení asi 75 % všech ukládaných dat. Tato textová data mohou obsahovat cenné znalosti a pro jejich získání je třeba provést jejich analýzu, kterou se zabývá speciální případ dolování znalostí z dat, dolování znalostí z textových dat neboli text mining. V předchozím odstavci byl data mining charakterizován jako odhalování dříve neznámých a potenciálně užitečných informací a znalostí v datech. V případě dolování znalostí z textových dat jsou však informace, které se mají získat, jasně a explicitně uvedeny v textu. Z hlediska lidí má slovní spojení dříve neznámý význam ve smyslu časového omezení, které činí přečtení veškerého textu člověkem neuskutečnitelným. Důvodem separace text miningu od data miningu je především skutečnost, že data mining má obecnější záběr, vyhledává informace i v numerických, nominálních a ordinálních proměnných, naopak text mining se specializuje výhradně na práci s nestrukturovaným textem, který může být obsahem nejrůznějších dokumentů, např. novinového článku či příspěvku v odborném časopisu, odpovědi na otevřenou otázku v dotazníku, ové korespondence a dalších.

9 1.2 Cíl práce 9 Výsledkem text miningu je odhalená vydolovaná znalost, jíž může být například objevení souboru slov či frází, které zákazníci či respondenti používají při hodnocení kladů a záporů daného produktu, služby nebo značky. Dolování znalostí z textových dat je komplikovaný proces. Nejdříve je potřeba data získat a následně upravit. Samotná příprava, předzpracování a převedení nestrukturovaných textových dokumentů do strukturované podoby je rozhodující pro kvalitu vydolovaných znalostí. Předzpracování textových dat (preprocessing) může být často časově náročnější než samotné dolování znalostí. Účelem aplikace metod předzpracování je zkvalitnit výsledky dolování znalostí z textových dat prostřednictvím redukce šumu a irelevantního obsahu a zároveň snížit výpočetní náročnost tohoto procesu, jinými slovy tento proces zefektivnit. Existuje mnoho metod předzpracování textových dat, například tokenizace, odstranění stopslov, převod veškerých znaků textu na minusky (popř. verzálky), stemming, lemmatizace, obohacení sémantikou, kontrola a oprava pravopisu, použití n-tic slov a další. Otázkou zůstává, které z těchto metod v jakém případě použít, aby jejich vliv na výsledky dolování byl pozitivní. Výsledný efekt předzpracování může záviset jak na kvalitě těchto metod, tak na samotných textových datech, tedy na jejich typu, přirozeném jazyce, ve kterém jsou psány, na délce jednotlivých dokumentů i na zaměření či doméně jejich obsahu. Ke zefektivnění analýzy dlouhých novinových článků psaných spisovným jazykem mohou přispět jiné metody předzpracování, než je tomu v případě krátkých uživatelských recenzí často psaných nespisovně. U recenzí by měla mít pozitivní vliv například oprava a korekce pravopisu, zatímco u novinových článků by aplikace této časově a výpočetně náročné metody byla zřejmě zbytečná. Kvůli vysoké složitosti zpracování nestrukturovaného textu psaného v přirozeném jazyce se vliv předzpracování na výsledky obtížně odhaduje. Jejich výsledný efekt na výkonnost algoritmů dolování znalostí může být jak pozitivní, tak negativní. Tato práce se zabývá metodami předzpracování aplikovanými na textová data v přirozeném jazyce a jejich vlivem na výsledek dolování znalostí z těchto textových dat. Jako zkoumané textové dokumenty byly zvoleny recenze hotelů jejich hosty v různých přirozených jazycích, které byly nasbírány v rámci probíhajícího výzkumu na Ústavu informatiky Provozně ekonomické fakulty Mendelovy univerzity v Brně. 1.2 Cíl práce Tato diplomová práce je spíše experimentálního a praktického charakteru. Cílem práce je aplikovat zvolené techniky předzpracování textu (preprocessing) a prostřednictvím analýzy dosažených výsledků zhodnotit vliv těchto jednotlivých metod a jejich kombinací na kvalitu a náročnost dolování znalostí z výsledných kolekcí textových dat (text mining) pomocí vybraných metod klasifikace a shlukování. K dosažení vytyčeného cíle je nezbytné nastudovat potřebný teoretický základ, zjistit současný stav ve zkoumané problematice a navrhnout a realizovat sérii experimentů umožňujících zhodnocení vlivu metod předzpracování textových dat na kvalitu výsledků text miningu.

10 2 SOUČASNÝ STAV PROBLEMATIKY 10 2 Současný stav problematiky Dolování znalostí z dat neboli data mining je mezioborovou podoblastí výpočetní techniky zahrnující metody umělé inteligence, strojového učení, statistiky a databázových systémů. Pojem data mining je definován jako proces objevování dříve neznámých a zajímavých vzorů (znalostí), které jsou skryté v obrovských množstvích dat. Vzor je považován za zajímavý, pokud je validní na testovacích datech s určitým stupněm jistoty, je nový a potenciálně užitečný a je pro člověka snadno pochopitelný. Vzory musejí mít význam v tom smyslu, že vedou ke vzniku jakési výhody, obvykle ekonomického charakteru. Proces dolování je automatický nebo (častěji) poloautomatický a pro získání vzorů z dat jsou aplikovány inteligentní metody. (Han, Kamber a Pei, 2012) Zvláštní případ dolování znalostí z dat, text mining, je popsán v kapitole 2.2, nejdříve však bude čtenář uveden do obecného kontextu oblasti umělé inteligence a jejího současného stavu. 2.1 Umělá inteligence Veškeré postupy a algoritmy vedoucí k určitému napodobení projevů inteligentního chování člověka jsou předmětem zkoumání vědní disciplíny umělé inteligence (artificial intelligence, AI), která existuje teprve od poloviny 20. století. Umělá inteligence je jedním z nejrychleji se vyvíjejících vědeckých a technických oborů. Pojem umělé inteligence nebyl zatím exaktně definován. Poměrně známá a nejspíše nejvíce uznávaná je definice Marvina Minského: Umělá inteligence je věda o vytváření strojů nebo systémů, které budou při řešení určitého úkolu užívat takového postupu, který kdyby ho dělal člověk bychom považovali za projev jeho inteligence. (Minsky, 1968) V současné době existuje řada technik, které mohou přispět ke konstrukci inteligentních systémů. Jedná se však o komplexní matematické algoritmy, jejichž vysvětlení přesahuje rozsah této práce. Následuje proto jen stručné seznámení s některými z hlavních oblastí umělé inteligence, podrobněji popsána je oblast strojového učení, která úzce souvisí s tématem této práce. Umělé neuronové sítě Snaha o napodobení lidského myšlení vedla ke vzniku umělých neuronových sítí, což jsou výpočetní modely, jejichž metody jsou inspirovány biologickými nervovými sítěmi. Umělá neuronová síť představuje systém vzájemně propojených umělých neuronů (perceptronů), které reagují na vstupní hodnoty. Vstupy jsou ohodnoceny odpovídajícími váhami, které určují jejich propustnost. Zvážená suma vstupních hodnot představuje vnitřní potenciál neuronu, jehož hodnota po dosažení tzv. prahové hodnoty indukuje výstup neuronu. Umělé neuronové sítě mají široké uplatnění, především v souvislosti s praktickými problémy, u nichž není znám algoritmus nebo jejichž analytický popis je pro počítačové zpracování příliš komplikovaný. (Šíma, 1996)

11 2.1 Umělá inteligence 11 Evoluční algoritmy Genetické programování a evoluční algoritmy umožňují přibližné řešení úloh, jejichž exaktní řešení překračuje současné výpočetních možnosti, je extrémně časově náročné anebo vyžaduje lidskou intuici. Tyto algoritmy se řídí principy známými z evoluční biologie, zejména pak Darwinovým principem přírodního výběru a přežití silnějšího. Namísto budování jednoho výsledného řešení problému exaktním nebo náhodným algoritmem, evoluční algoritmy udržují celou populaci kandidujících řešení a v každé z generací jsou vybráni nejlepší jedinci ti jsou pak kříženi a mutováni. Koncept mutace představuje náhodnou změnu genů jedince a snaží se zabránit degeneraci, tedy uvíznutí v lokálním extrému, přičemž požadované řešení se nachází v extrému globálním. Díky tomuto principu jsou často nalezena vysoce kvalitní řešení daných problémů, a to bez nutnosti implementace specializovaných algoritmů pro řešení jednotlivých problémů. (Ošmera, 2008) Expertní systémy Expertní systém je inteligentní počítačový program, jenž využívá znalosti a inferenční (odvozovací) pravidla pro řešení problémů, které jsou natolik obtížné, že by vyžadovaly značně odborné znalosti člověka pro jeho vyřešení. Využívají se v medicíně, geologii, chemii, zemědělství, právu, matematice a v dalších oblastech. Expertní systém má za úkol poskytovat expertní rady, rozhodnutí nebo doporučit řešení v konkrétní situaci, a to spolu s vysvětlením (výhoda oproti jiným přístupům, např. neuronová síť funguje jako black-box). Je to tedy počítačový systém, který se snaží rozhodovat stejně jako člověk-expert. (Nikolopoulos, 1997) Fuzzy logika Další oblastí umělé inteligence je fuzzy logika, která je odvozena od teorie fuzzy množin, v níž se logické výroky na rozdíl od klasické výrokové logiky ohodnocují mírou pravdivosti. V klasickém přístupu se rozlišují pouze dvě logické hodnoty, pravda a nepravda (obvykle reprezentované hodnotami 1 a 0). Fuzzy logika umožňuje práci s hodnotami v uzavřeném intervalu od 0 do 1, lze tedy vyjádřit částečnou příslušnost k množině a matematicky formulovat vágní pojmy (např. hodně, trochu ). V současnosti existuje mnoho aplikací fuzzy logiky, např. fuzzy procesory v pračkách nebo jako regulátory spalovacích motorů. (Chen a Pham, 2001) Prohledávání stavového prostoru Prohledávání stavového prostoru je proces hledání cílového stavu, který se vykazuje požadovanou vlastností, v rámci po sobě jdoucích konfigurací či stavů instance. Stavový prostor je modelem problému, obsahuje množinu všech stavů, ve kterých se může problém nacházet. Metody prohledávání stavového prostoru se obvykle dělí na neinformované a informované. Neinformované metody (např. prohledávání do šířky či prohledávání do hloubky) nemají žádné znalosti o stavovém prostoru, které by jim umožnily urychlit cestu k cíli, musí tedy systematicky procházet všechny uzly, dokud nenaleznou řešení. Oproti tomu informované metody (např. paprskové či gradientní prohledávání) mají znalost o stavovém prostoru, která umožňuje odhad (reprezentován heuristickou funkcí) toho, jak je aktuální stav vzdálen od cílového řešení. (Zhang, 1999)

12 2.1 Umělá inteligence 12 Strojové učení Dalším z mnoha odvětví umělé inteligence je strojové učení (machine learning). Jedná se o vědní disciplínu, která se věnuje návrhu a vývoji algoritmů umožňujících počítačům vyvíjet vlastní chování na základě empirických dat (získaných například ze senzorů nebo z databází) prostřednictvím zobecnění (generalizace) daných vzorků tak, aby byly schopny vytvořit užitečný výstup u nových případů. Strojové učení se tedy zabývá otázkou konstrukce počítačových programů, které automaticky zvyšují svoji výkonnost se získáním zkušeností, tedy učí se. Učení v tomto kontextu lze definovat následovně: Lze říci, že se počítačový program učí ze zkušenosti E s ohledem na nějakou třídu úloh T a na metriku výkonnosti P, pokud se jeho výkonnost měřená pomocí metriky P při řešení úloh z T zvyšuje se získanou zkušenosti E. (Mitchell, 1997) Na základě způsobu učení se algoritmy strojového učení rozdělují do následujících kategorií: Učení s učitelem (supervised learning) Algoritmy z této kategorie jsou natrénovány na ohodnocených vzorcích, tedy na trénovacích datech, u nichž je znám správný výstup. Trénovací vzorek je reprezentován dvojicí vstupní objekt (typicky vektor) a hodnota požadovaného výstupu (např. třída pro klasifikaci nebo hodnota pro regresi). Algoritmus učení s učitelem analyzuje tréninková data a vytváří funkci, již lze použít pro analýzu nových, neznámých vzorků. Schopnost algoritmu rozumně zobecňovat z trénovacích dat na data neznámá je nezbytným předpokladem k tomu, aby mohl takovou funkci vytvořit. Obdobný princip učení funguje u lidí a zvířat a v psychologii je označován jako konceptuální učení. (Zhu a Goldberg, 2009) Učení bez učitele (unsupervised learning) Algoritmy učení bez učitele pracují s neohodnocenými daty, v nichž se snaží nalézt skryté vzory. Jelikož algoritmus zkoumá vzorky, které jsou neohodnocené, není zjištěna chyba nebo podobná metrika, pomocí níž by se dalo potenciální řešení ohodnotit. Tento fakt odlišuje učení bez učitele od učení s učitelem a učení posilováním. Jedním z úkolů typických pro přístup učení bez učitele je shlukování, které je tématem kapitoly 2.7. Kombinované učení (semi-supervised learning) Tento přístup představuje kombinaci dvou předchozích. Z mnoha výzkumů v oblasti strojového učení vyplývá, že použití neohodnocených dat ve spojení s menším množstvím dat ohodnocených může mít za následek významné zvýšení v přesnosti učení. Získání ohodnocených dat často vyžaduje kvalifikovanou osobu, či praktický experiment, tudíž náklady spojené s procesem ohodnocení mohou učinit ohodnocení celé trénovací sady neuskutečnitelným, zatímco získání neoznačených dat je relativně levné. V takovýchto situacích má kombinované učení vysokou praktickou hodnotu. (Zhu a Goldberg, 2009)

13 2.2 Dolování znalostí z textových dat 13 Transdukce (transduction) Transdukce, také označována jako transduktivní inference, představuje přístup, který z pozorovaných specifických tréninkových případů usuzuje na konkrétní testovací případy. Oproti tomu klasická indukce používaná v rámci přístupu učení s učitelem vyvozuje z pozorovaných trénovacích případů obecná pravidla, jež se poté aplikují na testovací data. (Vapnik, 1998) Zpětnovazebné učení (reinforcement learning) Zpětnovazebné učení neboli učení posilováním zavádí koncept odměny. Přístup se zabývá tím, jak by měli inteligentní agenti v daném prostředí jednat a následně svými akcemi toto prostředí měnit tak, aby maximalizovali dosaženou odměnu. Agent nejdříve provede posloupnost akcí, díky níž nashromáždí znalosti o reakcích prostředí na jeho vlastní akce. Následně se agent pokusí vytvořit posloupnost akcí maximalizující jeho kumulativní odměnu. (Barto, 1998) Je možné specifikovat mnoho učících problémů, např. rozpoznat ručně psaný text, samostatně řídit robotický automobil nebo hrát dámu. Strojové učení se prokázalo vysokou praktickou hodnotou v široké řadě domén, zvláště v tam, kde se program musí dynamicky adaptovat na měnící se podmínky (např. řízení výrobních procesů při změně objemu zásob), a také v oblasti problémů dolování znalostí z dat, kde rozsáhlé databáze mohou obsahovat hodnotné zákonitosti, jež lze odhalit automaticky (např. analýzou výsledků zdravotnické léčby z databáze pacientů či naučením obecných pravidel úvěrové bonity z finančních databází). (Mitchell, 1997) Odvětví strojového učení poskytuje technický základ pro oblast dolování znalostí z dat, respektive i pro odvětví dolování znalostí z textových dat. 2.2 Dolování znalostí z textových dat Před vysvětlením samotného dolování znalostí z textových dat se tato kapitola bude věnovat třem základním pojmům: data, informace a znalost. Primárním zdrojem informací a znalostí jsou data. Data jsou získávána sledováním a zaznamenáváním libovolných jevů v reálném světě. Databázové systémy umožňují data ukládat a postupně shromažďovat. Poté je možné tato data využít za mnoha různými účely jedním z nich může být odhalování znalostí, které jsou podle předpokladů v datech ukryté. Část dat použitých pro řešení konkrétní úlohy představuje informace. (Žižka a Dařena, 2013) Data tedy reprezentují zpracovatelné informace a/nebo znalosti; jejich účelem je přenášet odraz skutečnosti. Informace jsou data, která mají význam, a jsou surovinou, z níž se tvoří znalosti. Účelem informace je snížit entropii 1. Znalosti před- 1 Entropie je veličina udávající míru neurčitosti zkoumaného systému. Je to číslo, které říká, jak moc je množina prvků homogenní (obsahující prvky, které náleží pouze do jedné třídy) nebo heterogenní (množina obsahující prvky z různých tříd). Ideální homogenní množina má minimální hodnotu entropie rovnu nule. Pokud množina obsahuje prvky například dvou skupin v poměru 50:50, pak je entropie maximální. (Žižka a Dařena, 2013)

14 2.2 Dolování znalostí z textových dat 14 stavují data či informace, jež umíme použít, a jejich účelem je umožnit porozumění skutečnosti. Oblast dolování znalostí z textových dat (anglicky text mining, text data mining) se zabývá analýzou textu se strojovou podporou. Text mining označuje proces odvozování informací a znalostí z textových dat. Jedná se o mezioborovou metodu na pomezí vyhledávání informací (information retrieval), strojového učení, statistiky, komputační lingvistiky 2 a obzvláště souvisí s dolováním znalostí z dat. (Hotho, Nürnberger a Paaß, 2005) Vztah text miningu a data miningu Hlavní odlišnost mezi text miningem a data miningem spočívá v povaze analyzovaných dat v případě data miningu jsou data ve strukturované podobě, zatímco text mining objevuje znalosti v nestrukturovaných dokumentech, které mají podobu volného textu napsaného přirozeným jazykem. Strukturovaná data dodržují určitou danou úpravu. Obvykle se jedná o soubor složený z tabulky obsahující řádky představující různé objekty a sloupce, které reprezentují atribut objektu, soubor dále může obsahovat metadata (data o datech). S pevně danou strukturou však souvisí nutnost dodržení datových typů a v případě chybějících hodnot potřeba tyto neúplné záznamy doplnit (např. průměrnými hodnotami), nebo je z datasetu zcela vyřadit. Nestrukturovaná data naopak nemají pevně danou formu, jde především o multimediální soubory, geografická data a v případě text miningu samozřejmě o text. Při práci s nestrukturovanými daty odpadá nutnost čelit komplikacím jako jsou neúplné záznamy či dodržování datových typů. (Witten, Bray a Mahoui, 1999) Dalším rozdílem mezi těmito dvěma oblastmi je fakt, že znalosti jsou ve strukturovaných datech ukryté a nejsou pro člověka na první pohled jasné, zatímco znalost v textu je velmi často explicitně a jasně uvedena zde je však problém v časové náročnosti přečtení veškerého textu člověkem. Předchozí odstavce rozebírají základní rozdíly text miningu a data miningu, obě oblasti však mají i mnoho společného. V rámci text miningu se velmi často používají tytéž metody a postupy jako při zpracování strukturovaných dat. Právě těmito metodami a postupy se zabývají následující odstavce. Aby bylo uvedené metody možné použít při text miningu, je potřeba textová data vhodně předzpracovat a převést je do číselné reprezentace. Této problematice jsou věnovány kapitoly 2.5 a 2.3. Většina metod data miningu se zakládá na osvědčených technikách z oblasti strojového učení, rozpoznávání vzorů a statistiky, konkrétně se jedná o metody klasifikace, shlukování regrese atd. Data mining lze použít pro řešení tisíců různých problémů. Podle povahy problému je můžeme seskupit do skupin, jejichž cílem je postihnout neznámé vztahy v datech. Setkat se můžeme s různými druhy dě- 2 Komputační (počítačová) lingvistika je disciplína, který se zabývá kvantitativním popisem jazykových jevů s využitím výpočetní techniky. Úzce souvisí s oborem počítačového zpracování přirozeného jazyka (natural language processing).

15 2.2 Dolování znalostí z textových dat 15 lení, jednotná podoba dána není. Následuje dělení, které uvádí (Fayyad, Piatetsky- Shapiro a Smyth, 1996). Dvěma primárními cíli data miningu v praxi jsou predikce a deskripce. Predikce (prediction) umožňuje předvídat budoucí hodnoty atributů na základě nalezených vzorů v datech; prediktivní metody typicky představuje regrese a klasifikace. Deskripce (description) popisuje nalezené vzory a vztahy v datech, které mohou ovlivnit rozhodování; typickými zástupci deskriptivních metod jsou shlukování a sumarizace. Cíle predikce a deskripce je možné dosáhnout prostřednictvím široké škály metod data miningu (Fayyad, Piatetsky-Shapiro a Smyth, 1996): Regrese (regression) Regrese využívá řady již dříve zjištěných hodnot k předpovězení toho, jaké další hodnoty budou následovat. Praktických aplikací regrese existuje mnoho, například předpověď množství biomasy v lesním porostu na základě dálkového mikrovlnného měření, odhad pravděpodobnosti přežití pacienta podle výsledků řady diagnostických testů nebo předpověď poptávky zákazníků po novém výrobku jako funkce výdajů na reklamu. Jednoduchý příklad lineární regrese demonstruje obrázek 1 na příkladu dvourozměrné datové sady obsahující 23 případů. Obr. 1: Demonstrace lineární regrese na příkladu poskytování půjček. Zdroj: Fayyad, Piatetsky-Shapiro a Smyth (1996) Každý bod grafu reprezentuje osobu, které banka poskytla úvěr; horizontální osa představuje finanční příjmy osoby a vertikální osa celkový dluh osoby (např. hypotéka či leasing na automobil). Osoby byly klasifikovány do dvou tříd: body ve tvaru x představují osoby, které nesplácí úvěr, body ve tvaru o jsou osoby, jejichž úvěry jsou podle banky v dobrém stavu. Zde uvedený příklad

16 2.2 Dolování znalostí z textových dat 16 je značně jednoduchý ve srovnání se skutečnými aplikacemi, kde se zkoumá mnohem více rozměrů (až několik stovek) a také mnohem více případů (mnoho tisíců až milionů). Obrázek 1 znázorňuje výsledek jednoduché lineární regrese, kde je celkový dluh lineární funkcí příjmu. Odhad je špatný, neboť mezi danými dvěma proměnnými existuje pouze slabá korelace. Klasifikace (classification) Podstatou klasifikace je rozdělit objekty s určitými charakteristickými rysy do jednotlivých tříd na základě modelu vybudovaného podle tréninkové množiny dat (třídy jsou dány předem a každý objekt je možné zařadit). Technikám klasifikace se blíže věnuje kapitola 2.6. Praktickou úlohu klasifikace v oblasti text miningu představuje určování druhu textů (text categorization), jejímž cílem může být přiřazení dokumentů do jedné či více kategorií z předem daného výčtu (například sport, politika, krimi, atp.) nebo filtrování dokumentů (např. filtrování spamu). Tato klasifikace je typicky prováděna na základě četností slov vyskytujících se v textech jednotlivých kategorií některou z technik strojového učení. (Sebastiani, 2002) Shlukování (clustering) Shluková analýza spočívá v rozdělení datového souboru do určitých skupin, čímž jsou vytvářeny shluky objektů. Tímto tématem se zabývá kapitola 2.7. Typickou praktickou aplikaci shlukování v oblasti text miningu představuje úloha shlukování textů (text clustering), která je principiálně podobná určování druhu textů. Místo zařazování do předem daných kategorií jsou však jednotlivé texty zařazovány do skupin na základě jejich vzájemných podobností. Každý dokument je tak obvykle zařazen právě do jedné skupiny. Vytvořené shluky dokumentů mohou, ale nemusí odpovídat očekávaným kategoriím (např. burzovní zprávy a sportovní výsledky mohou například spadnout do jedné kategorie na základě faktu, že obsahují větší množství čísel). (Feldman a Sanger, 2007) Sumarizace (summarization) Metody sumarizace hledají ucelený popis podmnožiny dat. K úloze shrnutí textu (document summarization), jejímž cílem je vytvoření krátkého shrnutí textu, je možné přistupovat dvěma způsoby: buď z textu vybrat nejdůležitější pasáže (např. věty) a ty vhodně seřadit (summary extraction), anebo text hlouběji analyzovat a na základě jeho sémantické reprezentace parafrázovat jeho obsah (summary abstraction). Druhý z obou přístupů by teoreticky měl poskytnout lepší výsledky, ve skutečnosti však sémantická analýza, ani následná tvorba souvislého textu dosud není na takové úrovni, aby byla schopná překonat výsledky prvně zmíněného přístupu. (Feldman a Sanger, 2007) Modelování závislostí (dependency modeling) Tento přístup spočívá v nalezení modelu, který popisuje podstatné závislosti mezi proměnnými. Modely závislostí existují na dvou úrovních:

17 2.3 Reprezentace textových dokumentů Strukturální úroveň modelu specifikuje (často graficky), které proměnné jsou na sobě lokálně závislé 2. Kvantitativní úroveň modelu specifikuje síly závislostí za použití číselné stupnice. Příkladem mohou být sítě pravděpodobnostní závislosti, které pomocí podmíněné nezávislosti specifikují strukturální aspekt modelu a pomocí pravděpodobností nebo korelací určují sílu závislostí. Sítě pravděpodobnostní závislosti jsou stále častěji uplatňovány v oblastech jako vyhledávání informací, modelování lidského genomu a vývoj pravděpodobnostních diagnostických expertních systémů v lékařství. Detekce změn a odchylek (change and deviation detection) Tento přístup se zaměřuje na objevení nejpodstatnějších odchylek v datech od původně naměřených nebo normativních hodnot. Analýza mínění (sentiment analysis, opinion mining) Zkoumaný text může kromě faktů obsahovat i jiný typ informace mínění (sentiment). Analýza mínění se snaží určit postoj autora zprávy k určitému tématu. Na základě výskytu citově zabarvených slov lze usuzovat na autorův pozitivní či negativní postoj k předmětu zprávy. K identifikaci subjektivních informací ve zdrojovém materiálu se využívají metody zpracování přirozeného jazyka, komputační lingvistiky a analýzy textu. (Feldman a Sanger, 2007) Prakticky se metody dolování znalostí z textových dat typicky aplikují ve spam filtrech, při analýze odpovědí z otevřeného průzkumu, v lékařství při určování diagnóz, při zkoumání obchodních nabídek a aktivity konkurence prostřednictvím procházení webových stránek (web crawling), atp. 2.3 Reprezentace textových dokumentů Vhodná reprezentace nestrukturovaných textových dat je klíčových předpokladem k tomu, aby tato data mohla být podrobena metodám text miningu (algoritmům strojového učení), v této práci představovanými klasifikací a shlukováním. Před samotnou transformací textových dokumentů do strukturované podoby musí být zvolena elementární sémantická stavební jednotka dokumentu, díky které tento dokument bude možné vyjádřit alternativním způsobem. Tyto elementární prvky se označují jako termy. Ve většině případů jsou termy představovány jednotlivými slovy, a to právě z důvodu jednoduchosti této reprezentace a přímočarého procesu jejího vytvoření. Alternativně bývají jako termy zvoleny dvojice či n-tice slov (bi-gramy, n-gramy), fráze nebo celé věty. Následující odstavce jsou věnovány dvěma běžně používaným reprezentacím, modelu bag-of-words a modelu vektorového prostoru.

18 2.3 Reprezentace textových dokumentů Model bag-of-words Model bag-of-words je velmi často používanou zjednodušenou reprezentací textových dokumentů. Princip tohoto přístupu spočívá v transformaci dokumentu na sekvenci termů (originálních slov z dokumentu), kde jejich pořadí nehraje roli. Z toho vyplývá fakt, že při použití modelu bag-of-words není možné zpětně sestavit původní dokument. Alternativně se model označuje jako bag-of-terms čí bag-of-features. Výhodou tohoto přístupu je rychlost při dalším zpracování, nevýhodou je však ztráta čitelnosti a sémantiky dokumentů. (Joachims, 2002) Model vektorového prostoru Model vektorového prostoru (vector space model) je jedním z nejjednodušších a nejčastěji používaných přístupů k modelování textových dokumentů. Tento přístup je velmi hojně využíván obecně v oblasti strojového učení, neboť provádění algebraických operací s vektory a porovnávání jejich vzájemné podobnosti je snadné. Princip tohoto přístupu je založen na modelu bag-of-words. Veškeré dokumenty z kolekce textových dat použitých při dolování společně tvoří prostor dokumentů a je nad nimi vytvořen slovník unikátních termů. Jednotlivé dokumenty se v tomto přístupu vyjadřují jako vektory, jejichž jednotlivé souřadnice vyjadřují četnost výskytu daného termu ze slovníku v daném dokumentu. To znamená, že se pracuje s prostorem o n rozměrech, kde n udává mohutnost slovníku termů, a každý dokument je reprezentován příznakovým vektorem o n složkách. Jako hodnoty jednotlivých příznaků je možné použít přítomnost nebo frekvenci daných termů. (Witten, Frank a Hall, 2011) Z charakteru typického textového dokumentu vyplývá, že při velkém počtu dokumentů v prostoru budou jednotlivé vektory obsahovat vysoký počet nulových hodnot. Podle způsobu uchovávání hodnot ve vektorech se rozlišují dva hlavní typy matic (Han, Kamber a Pei, 2012): Hustá matice (dense matrix) V hustých vektorech jsou uchovávány všechny složky vektoru, běžný textový dokument by tedy byl reprezentován vektorem, který by měl drtivou většinu složek nulovou. Řídká matice (sparse matrix) U řídkých vektorů se nulové hodnoty vypouští a nenulové hodnoty se ukládají jako dvojice: index příznaku vektoru a hodnota daného příznaku. Aby bylo použití reprezentace pomocí řídké matice efektivní, musí být alespoň polovina složek nulová, což textové dokumenty typicky splňují. Výsledná matice reprezentující celý prostor dokumentů může být uchovávána několika způsoby. Podle (Turney a Pantel, 2010) je možné uchovávat matici v následujících formátech:

19 2.3 Reprezentace textových dokumentů 19 T-D matice (term-document matrix) U matice tohoto typu řádky představují jednotlivé dokumenty ve vektorovém prostoru a sloupce reprezentují jednotlivé termy vyskytující se v dokumentech. Hodnoty mohou být vyjádřením přítomnosti (binární vyjádření) nebo frekvence daných termů dokumentu, popřípadě mohou být použity statistické váhy představující důležitost termů (viz kapitola 2.3.3). Tento typ matice zde bude demonstrován pomocí dvou dokumentů, kterými jsou krátké hotelové recenze: dokument 1 dokument 2 Personál neschopný, jídlo přesolené. Jídlo i personál vynikající. Tabulka 1 představuje T-D matici uvedených dvou dokumentů. Tab. 1: Příklad matice document-term personál neschopný jídlo přesolené vynikající dokument dokument T-T matice (term-term matrix) Řádky i sloupce tohoto typu matice představují jednotlivé termy. Tento přístup umožňuje znázornit podobnost mezi jednotlivými termy. T-T matice je symetrická, postačuje tedy hodnoty uvádět pouze na jedné straně hlavní diagonály. D-D matice (document-document matrix) Matice typu document-document je taktéž symetrická, řádky i sloupce jsou tvořeny jednotlivými dokumenty. Hodnoty v D-D matici lze vypočítat z matice typu document-term. Stejně jako v případě T-T matice je i účelem D-D matice znázornit podobnost jednotlivých dokumentů. V souvislosti s termy je třeba zvolit také jejich vhodnou metodu vážení touto problematikou se zabývá následující kapitola Výpočet váhy termů Termům mohou být přiřazeny statistické váhy. Účelem vážení frekvence výskytu slov v dokumentu je lepší vyjádření jejich důležitosti. V případě, že se v dokumentu vyskytuje nějaký term pětkrát, jeho důležitost je vyšší než v případě, kdy by tam byl přítomen pouze jednou, jeho významnost není však pětkrát vyšší důležitost slova neroste proporcionálně s frekvencí jeho výskytu. Prostředkem k promítnutí této skutečnosti do vektorové reprezentace je použití lokálních a globálních vah. (Weiss et al., 2010) V následujících odstavcích budou představeny dvě nejpoužívanější funkce pro určení lokální váhy, přítomnost termu a frekvence termu, existují však i další metody, např. logaritmická frekvence termu, rozšířená frekvence termu nebo model Okapi.

20 2.3 Reprezentace textových dokumentů 20 Přítomnost termu (term presence, TP) Přítomnost termu je velmi jednoduchým způsobem reprezentace textových dokumentů. Hodnoty vektoru jsou reprezentovány binárně: hodnotou 0 v případě nepřítomnosti termu ze slovníku v dokumentu a hodnotou 1 v případě, že se term v dokumentu vyskytuje alespoň jednou. Tabulka 2 demonstruje použití této lokální váhy na dvou krátkých recenzích. dokument 1 dokument 2 Personál neschopný, jídlo přesolené. Jídlo vynikající, personál vynikající. Tab. 2: Příklad modelu vektorového prostoru s použitím lokální váhy přítomnosti termu personál neschopný jídlo přesolené vynikající dokument dokument Frekvence termu (term frequency, TF) Tato varianta představuje rozšířený způsob vektorové reprezentace textových dokumentů, konkrétně pomocí počtu výskytů termů. Vektory se skládají z hodnot reprezentovaných celými přirozenými čísly vyjadřujícími frekvence výskytů termu v dokumentu. Tato lokální váha se často používá ve spojení s globální váhou IDF, která je zmiňována dále. U delších dokumentů (s vyšším počtem termů) může dojít k nadhodnocení termů. Tomu lze zabránit výpočtem relativní důležitosti i-tého slova v j-tém dokumentu: T F ij = n ij i n, ij kde n ij je frekvence výskytu i-tého termu v j-tém dokumentu a i n ij je počet výskytů všech termů v j-tém dokumentu. Příklad použití této lokální váhy na dvou krátkých recenzích (viz výše) uvádí tabulka 3. Tab. 3: Příklad modelu vektorového prostoru s použitím lokální váhy frekvence termu personál neschopný jídlo přesolené vynikající dokument dokument Pro určení celkové váhy termu v dokumentu je lokální vážení frekvence jeho výskytu v dokumentu často nedostačující. Při hodnocení důležitosti daného termu se nezohledňuje pouze jeho lokální významnost v rámci jednoho dokumentu, bere se

21 2.4 Podobnost textových dokumentů 21 také v úvahu jeho významnost v rámci všech dokumentů ve vektorovém prostoru, a to prostřednictvím globálních vah. Způsobů určení globálních vah opět existuje několik, vektorový prostor dokumentů lze určovat i bez použití jakéhokoli globálního vážení (koeficient váhy je roven 1). Zde bude popsán jeden z těchto způsobů: Inverzní frekvence výskytu termu (inverse document frequency, IDF) Inverzní frekvence výskytu termu v dokumentu je založena na myšlence, že čím větší množství dokumentů obsahuje nějaké slovo, tím nižší by měla být jeho důležitost, jinými slovy čím nižší je frekvence výskytu daného termu ve všech dokumentech, tím více je specifický a tudíž důležitý. Důležitost termu by tedy měla být redukována hodnotou, která roste s nižším výskytem termu v celé kolekci dokumentů, čehož lze dosáhnout použitím převrácené hodnoty četnosti termu ve všech dokumentech: IDF (t i ) = log N n(t i ), kde t i představuje i-tý term, N je počet všech dokumentů a n(t i ) je počet dokumentů, které obsahují term t i. Nejčastěji se při určování vah využívá právě kombinace lokální váhy frekvence výskytu termu a globální váhy inverzní frekvence výskytu termu, tedy váha TF-IDF (Witten, Bray a Mahoui, 1999): TF-IDF (term frequency inverse document frequency) Váha TF-IDF je dána součinem složky TF a složky IDF: TF-IDF = T F IDF = n ij i n ij log N n(t i ) Tabulka 4 demonstruje aplikaci kombinace dílčích vah TF a IDF na příkladu dvou krátkých recenzích uvedených na straně 20. Tab. 4: Příklad modelu vektorového prostoru s použitím váhy TF-IDF personál neschopný jídlo přesolené vynikající dokument dokument Podobnost textových dokumentů Tato kapitola se věnuje nejpoužívanějším metodám určování vzájemné podobnosti textových dokumentů, která se zkoumá při řešení řady úloh (shlukování, klasifikace). Všechny z uvedených metrik (funkcí) pracují s vektory, je tedy nezbytné dokumenty transformovat z textové podoby do vektorové reprezentace. Následuje výčet několika

22 2.5 Metody předzpracování textových dat 22 běžných metrik podobnosti, včetně kosinové podobnosti, která je nepoužívanější při úloze shlukování dokumentů (Feldman a Sanger, 2007): Euklidovská vzdálenost (Euclidean distance) Euklidovská vzdálenost je metrika představující vzdálenost mezi dvěma body v obecně n-dimenzionálním prostoru. Euklidovská vzdálenost dvou vektorů (textových dokumentů) se vypočítá podle následujícího vzorce. d E ( x, y) = n (x i y i ) 2, kde x i a y i jsou souřadnice objektů x a y pro i-tou dimenzi. Manhattanská metrika (Manhattan distance) Tato metrika je podobná výše zmíněné euklidovské vzdálenosti, vzdálenost objektů se však určuje na základě součtu absolutních hodnot rozdílů jejich jednotlivých souřadnic v prostoru, což činí tuto metodu určení vzdálenosti méně výpočetně náročnou (neprobíhá výpočet druhé mocniny). d M ( x, y) = i=1 n x i y i, kde x i a y i jsou souřadnice objektů x a y pro i-tou dimenzi. i=1 Kosinová podobnost (cosine similarity) V tomto přístupu je rozhodující velikost úhlu svíraného vektory, které představují porovnávané objekty. V případě naprosté shody dvou objektů je úhel mezi jejich vektory nulový, kosinus tohoto úhlu tedy nabývá nejvyšší hodnoty. d cos ( x, y) = x y x y = n i=1 x y n i=1 x2 i n i=1 y2 i kde x i a y i jsou souřadnice objektů x a y pro i-tou dimenzi. Pokud je počet dimenzí prostoru vysoký, výsledky dosahované s využitím euklidovské vzdálenosti a kosinové podobnosti jsou velmi podobné. 2.5 Metody předzpracování textových dat Vektorová reprezentace dokumentu přestavuje n-dimenzionální prostor, kde n je celkový počet termů vyskytující se ve všech dokumentech. Velké rozměry vektorů u rozsáhlých dokumentů způsobují vysokou náročnost dalšího zpracování a z tohoto důvodu je vždy vhodné redukovat počet dimenzí a snížit tak výpočetní složitost. K tomuto účelu slouží právě techniky předzpracování textových dat (text preprocessing), které zároveň umožňují redukovat šum a irelevantní obsah původních textových dokumentů. Těchto technik a metod existuje celá řada, například:,

23 2.5 Metody předzpracování textových dat 23 Tokenizace Proces tokenizace rozděluje text na diskrétní slova, tedy na jednotlivé instance prvků ze slovníku (tokeny). V závislosti na analyzovaném jazyku může mít tokenizace mnoho podob. Například v anglických textech je přímočarou a efektivní strategií tokenizace používat bílé znaky a interpunkci jako oddělovače tokenů. Výhodou této strategie je snadná implementace, existují však případy, kdy tato strategie neodpovídá požadovanému chování, například v případě akronymů a zkratek tomu lze zabránit jejich dopřednou detekcí. (Feldman a Sanger, 2007) Odstranění slov s nízkou četností Slova, jež mají nízkou frekvenci výskytu v prostoru dokumentů, se často vyznačují velmi malým či žádným vlivem na proces a výsledky dolování znalostí. Často se jedná například o překlepy. V souvislosti s velkými množinami dat lze odstraněním slov vyskytujících se v dokumentech pouze jedenkrát zredukovat velikost slovníku přibližně na polovinu, a to bez negativního vlivu na výkonnost klasifikátoru. (Žižka a Dařena, 2011) Odstranění stopslov Jedná se o odstranění slov, která nenesou žádnou významnou informaci (viz kapitola 2.5.3). Case folding Dokument ve formě textu může obsahovat slova psaná jak verzálkami, tak minuskami, což způsobuje rozdíly v zacházení se slovy jinak stejnými (více unikátních záznamů ve slovníku pro totéž slovo). Case folding je proces normalizace textu tak, aby byl uniformní dokumenty jsou převedeny buď do lower-case, nebo upper-case podoby. (Nedjah et al., 2009) Stemming Účelem stemmingu je transformace slov do podoby jejich kmene, konkrétně prostřednictvím odstranění morfologických koncovek, předpon a přípon. Touto metodou předzpracování textu se zabývá kapitola Lemmatizace Proces lemmatizace směřuje k podobnému cíli jako stemming, ale jinými prostředky. Lemmatizátor provádí převod slov vniklých odvozováním, skloňováním či časováním do jejich základního tvaru (lemma), a to konkrétně na základě morfologické analýzy, která právě tento základní tvar slova určuje. Morfologická analýza není prováděna nad izolovanými slovy, ale posuzuje se větší část textu, aby bylo možné na základě tohoto kontextu správně určit význam slova a následně jeho správný základní tvar, který může být například shodný s odvozeným či skloňovaným tvarem slova s odlišným významem. Podstatná jména jsou převedena do prvního pádu jednotného čísla, přídavná jména do prvního

24 2.5 Metody předzpracování textových dat 24 pádu jednotného čísla mužského rodu prvního stupně a slovesa do tvaru infinitivu. Následuje příklad výsledku lemmatizace: nejčistších pokojů čistý pokoj Rozdílné výsledky stemmingu a lematizace budou demonstrovány na příkladu v anglickém jazyce: stemming lemmatizace walk walk walk meeting meet meet nebo meeting Pro slovo walk je výsledek stemmingu i lemmatizace totožný. U slova meeting, které může být buď podstatným jménem, anebo slovesem, tomu tak však není stemmer pro obě varianty vrací kmen meet, ale lemmatizátor transformuje sloveso na meet a pro podstatné jméno ponechá tvar meeting. (Miner et al., 2012) Kontrola pravopisu Kontrola a následná oprava pravopisu je jedním ze způsobů, který umožňuje významně ovlivnit kvalitu obsahu dokumentu (viz kapitola 2.5.1). V této práci budou teoreticky blíže popsány principy tří z uvedených metod předzpracování textových dat, a to právě ty, kterým se práce věnuje i prakticky. Jedná se o kontrolu pravopisu, stemming a odstranění stopslov Kontrola pravopisu Jednu z možností redukce rozsáhlých vektorů představuje kontrola a korekce pravopisu (spell check and correction). Dimenzionalitu vektorového prostoru snižuje odstraněním neplatných slov s nízkou frekvencí výskytu ze slovníku. Kontrola pravopisu je v současné době poměrně rozšířenou součástí celé řady programů a aplikačního softwaru poskytovaného operačními systémy. Chyby v textových dokumentech psaných přirozeným jazykem mohou vznikat z různých příčin, například kvůli překlepům při psaní či z důvodu autorovy neznalosti gramatických pravidel. Nejdříve je nutné chybu nalézt a následně ji opravit. Existují nástroje pro korekci slov v různých jazycích a je možné je dělit podle jejich funkcionality při korekci slova, a to na skupinu nástrojů, které vyžadují interakci uživatele při opravě v podobě manuálního výběru nejvhodnější alternativy chybného slova, a skupinu nástrojů provádějících korekci zcela automaticky. První kategorie nástrojů je zcela nevhodná pro opravu velkého množství textových dokumentů. Nevýhodou druhé skupiny je, že tyto nástroje zpravidla nejsou volně dostupné, jedná se zejména o komerční programy. Většina algoritmů kontroly a korekce pravopisu používá korpus slov se správným pravopisem, z něhož se vybírají alternativy za chybná slova. (Wu, Xiong a Shekhar, 2004)

25 2.5 Metody předzpracování textových dat Stemming Cílem stemmingu je normalizace slov odvozených od stejného kmene tak, aby byly tyto jednotlivé termy reprezentovány unifikovaně. Tohoto cíle se dosahuje odstraněním morfologických koncovek, předpon a přípon. Stemmer nevyužívá morfologickou analýzu, jak tomu bylo v případě lemmatizace, ale prostou aplikaci sady přepisovacích pravidel na data. Tento fakt implikuje časovou úsporu oproti lemmatizaci, při níž je nutné zpracovávat větší množství dat tvořící kontext, který umožňuje určit význam termů. Stemmer pracuje pouze s jednotlivými slovy a v případě shody tohoto slova s levou stranou přepisovacího pravidla se dané pravidlo aplikuje. Tento přístup však může vést k nesprávným transformacím, při nichž může dojít ke vzniku nekorektních slov. Přetrvávajícím problémem také je to, že existují slova se stejným kořenem, která mají přesto rozdílný význam. (Kao a Poteet, 2007) Stejně jako kontrola a oprava pravopisu, i stemming představuje metodu předzpracování, která je silně závislá na zkoumaném přirozeném jazyce a jeho gramatických pravidlech. Nejznámější implementací stemmeru je Porterův algoritmus, který byl původně vyvinut pro anglický jazyk a který v současné době představuje určitý standard v oblasti stemmingu. Jsou k dispozici modifikace tohoto algoritmu pro další jazyky vytvořené prostřednictvím nádstavby Porterova algoritmu, programovacího jazyka Snowball 3, který umožňuje vytvářet vlastní algoritmy pro stemming. Porterův algoritmus využívá ke transformaci termů řadu heuristických nahrazovacích pravidel. Mimo Porterův algoritmus existují další možnosti pro implementaci stemmeru (Miner et al., 2012): Vyhledávací algoritmy Odvozené tvary termů jsou vyhledávány ve vyhledávací tabulce. Jedná se o jednoduchý a rychlý přístup, avšak s nutností vyčerpávajícího výčtu skloňovaných a odvozených forem v tabulce. Algoritmy pro odstranění přípony (suffix-stripping algorithms) Tyto algoritmy využívají seznam pravidel pro oddělování koncovek a přípon slov, který je obecně menší než vyhledávací tabulka. Výsledný tvar po aplikaci tohoto algoritmu však nemusí být platným slovem, respektive jazykovým tvarem. Stochastické algoritmy Využívají pro určení základního tvaru slova pravděpodobnost, a to v podobě pravděpodobnostního modelu, který je vytvářen trénováním pomocí tabulky obsahující vztahy mezi základními a odvozenými tvary slov. Hybridní přístupy K dosažení výsledků kombinují dva nebo více přístupů, které jsou popsány výše. Příkladem je kombinace vyhledávacích tabulek a odstraňování přípon: pokud není slovo ve vyhledávací tabulce, uplatní se algoritmus pro odstranění přípony. 3 Seznam aktuálně dostupných jazyků je k nalezení na adrese snowball.tartarus.org/index.php.

26 2.6 Klasifikace 26 Pro účely dolování znalostí z textových dat může stemming v některých případech poskytnout pozitivní přínos. Jedním účinkem stemmingu je zredukování počtu odlišných termů v dokumentovém prostoru a zvýšení frekvence výskytu některých jednotlivých termů. (Weiss et al., 2010) Odstranění stopslov Stopslova jsou slova, která se v textových dokumentech běžně vyskytují bez závislosti na nějakém konkrétním tématu, pro český jazyk to mohou být například spojky, předložky, zájmena a části modálních sloves. Z tohoto důvodu se stopslova považují za irelevantní vzhledem k dolování znalostí a jejich odstranění (stop words removal, stopping) se řadí mezi často využívané metody předzpracování textových dat, které mohou zvýšit účinnost a efektivitu aplikovaných metod dolování znalostí. (Miner et al., 2012) Odstranění stopslov je, stejně jako stemming a kontrola pravopisu, jazykově specifická metoda předzpracování. Seznamy stopslov neboli negativní slovníky mohou být buď obecné, nebo doménově orientované. První typ seznamů bývá veřejně dostupný a zahrnuje standardní slova bez významu. Druhý typ seznamů obsahuje doménově specifická stopslova, která nenesou informační hodnotu z pohledu zkoumané domény či kontextu. Existují metody pro automatické generování seznamů stopslov, které vznikly právě proto, aby bylo možné vytvořit seznam stopslov specifických pro zkoumanou doménu, dále z důvodu nutnosti aktualizace statických seznamů standardních stopslov a také z důvodu jejich neexistence pro některé jazyky. Tyto metody pracují na principu určení informační důležitosti každého slova prostřednictvím různých metrik. Seznam stopslov je pak vygenerován na základě nízké hodnoty informační významnosti jednotlivých termů. (Pazienza, 2003) Během aplikace negativního slovníku na textové dokumenty dochází k mazání těchto pro analýzu irelevantních slov a tím i ke snížení celkového počtu termů ve slovníku. Následující kapitoly se věnují klasifikací a shlukování, dvěma vybraným technikám strojového učení, kterými se tato diplomová práce zabývá i z praktického hlediska. 2.6 Klasifikace Klasifikace (classification) se řadí mezi algoritmy strojového učení, a to konkrétně do skupiny metod učení s učitelem (supervised learning), které se využívají při dolování znalostí jak ze strukturovaných, tak i z textových dat. Učení s učitelem představuje přístup, kde je dostupná trénovací množina dat, která je správně ohodnocena, a pomocí této množiny se vytvoří klasifikátor rozhodující o náležitosti instancí do tříd. Takto naučený klasifikátor se následně používá ke klasifikaci dosud neznámých instancí z testovací množiny dat.

27 2.6 Klasifikace 27 Aby bylo možné vytvořit kvalitní klasifikátor, je nutné algoritmu poskytnout dostatečně velkou množinu trénovacích dat, která bude zároveň co nejvíce vyvážená z hlediska instancí zastupujících jednotlivé třídy (instance trénovací množiny musí patřit do některé ze tříd, které chceme rozeznávat). Je také nezbytné, aby učící a testovací množiny byly disjunktní testovací množina se nesmí žádným způsobem podílet na konstrukci klasifikátoru, jinak by změřené výsledky klasifikátoru neodpovídaly skutečnému výkonu na neznámých datech. (Mitchell, 1997) Obrázek 2 znázorňuje jednoduché rozdělení dat týkajících se problému poskytování půjček do dvou tříd (bližší popis úlohy na straně 15). Obr. 2: Demonstrace hranice jednoduché lineární klasifikace na příkladu poskytování půjček. Zdroj: Fayyad, Piatetsky-Shapiro a Smyth (1996) Na základě těchto klasifikačních oblastí může banka automaticky rozhodovat o schválení či zamítnutí poskytnutí půjčky dalším žadatelům. Třídy však není možné dokonale oddělit pomocí lineární rozhodovací hranice. (Fayyad, Piatetsky-Shapiro a Smyth, 1996) Klasifikace textu spočívá v přiřazení booleovské hodnoty každému páru d j, c i D C, kde D představuje doménu dokumentů a C = {c 1, c 2,..., c C } je množinou předdefinovaných kategorií. Hodnota T (pravda) přiřazená dvojici d j, c i označuje rozhodnutí zařadit dokument d j do kategorie c i, zatímco hodnota F (nepravda) znamená rozhodnutí nezařadit dokument d j do kategorie c i. Úlohou je tedy aproximovat neznámou cílovou funkci Φ : D C {T, F } (která popisuje, jak jednotlivé dokumenty mají být klasifikovány) funkcí Φ : D C {T, F } nazývanou klasifikátor (hypotéza, model) tak, aby funkce Φ a Φ byly v co největším souladu. Definice a způsob měření této shody se nachází v kapitole Předpokládáme, že kategorie jsou pouze symbolická označení bez dodatečných informací o jejich významu a nejsou dostupné žádné vnější znalosti o datech (například zdroj, datum

28 2.6 Klasifikace 28 vydání) klasifikace tak musí být dosažena zcela obecně, výhradně na základě vnitřních znalostí získaných přímo z analyzovaných textových dokumentů. (Sebastiani, 2002) V závislosti na využití muže výstupem klasifikace dokumentu být buď jedna třída (single-label text categorization, nonoverlapping categories), kdy je každý dokument klasifikován právě do jedné kategorie, nebo více tříd (multilabel text categorization, overlapping categories), kdy dokument může patřit do více kategorií současně. Speciálním případem jednoznačné klasifikace je binární klasifikace (binary text categorization), u níž každý dokument musí náležet buď do kategorie c i, nebo do jejího doplňku c i. (Sebastiani, 2002) Metody klasifikace Pro nalezení aproximační funkce a tvorbu klasifikátoru se používají různé algoritmy strojového učení, které na množině trénovacích dat automaticky odhalují pravidla, jež následně rozhodují o příslušnosti jednotlivých neznámých instancí do určitých tříd. Mezi algoritmy a techniky používané pro klasifikaci textových dokumentů mimo jiné patří: naivní Bayesovský klasifikátor (naive Bayes classifier) rozhodovací stromy (decision trees) asociační pravidla (association rules) metoda k-nejbližších sousedů (k-nearest neighbors algorithm) podpůrné vektory (SVM, support vector machines) umělé neuronové sítě (artificial neural networks) logistická regrese (logistic regression) Následující odstavce jsou věnovány dvěma z metod z výčtu uvedeného výše, konkrétně rozhodovacím stromům a podpůrným vektorům, neboť jsou náplní praktické části této práce. Rozhodovací stromy Rozhodovací strom představuje klasifikátor, který je reprezentován zvláštním typem grafu, stromem. Tento typ klasifikační funkce na základě rozhodovacích pravidel ve formě stromové struktury mapuje pozorované atributy objektu (termy textového dokumentu v případě textových dat) na závěry ohledně náležitosti analyzovaného objektu do třídy. Jednotlivé uzly stromu představují atributy objektu, hrany reprezentují případy testování (např. zda se term v dokumentu nachází, či nikoliv) a listy představují konkrétní cílové třídy. Při klasifikaci se postupuje od prvního pravidla definovaného v kořeni stromu a následným vyhodnocováním dalších pravidel se zkoumaný objekt přesunuje do podstromů, až nakonec

29 2.6 Klasifikace 29 dorazí do jednoho z listů, což odpovídá přiřazení objektu do dané třídy. (Rokach a Maimon, 2008) Vytvoření modelu odpovídá extrakci pravidel při dolování nad trénovacími daty. Cílem je získat co nejméně pravidel, aby strom byl co nejmenší a nejjednodušší. Významnou výhodou stromů je jejich vizualizace a z ní plynoucí srozumitelnost pro člověka. Existuje řada algoritmů pro generování rozhodovacích stromů, mezi nejpoužívanější patří: ID3 (Iterative Dichotomiser 3 ) C4.5 CART (Classification And Regression Tree) CHAID (CHi-squared Automatic Interaction Detector) V této práci je prakticky využíván algoritmus C4.5 v podobě jeho open source implementace pro nástroj Weka, algoritmu J48, a bude tedy krátce popsán v následujícím odstavci. C4.5 Princip algoritmu C4.5, který je následníkem algoritmu ID3 a předchůdcem vylepšeného algoritmu C5.0/See5 (autorem všech tří algoritmů je Ross Quinlan), je založen na výběru atributů (termů v případě analýzy textových dokumentů) na základě jejich schopnosti snížit entropii algoritmus se tedy snaží rozdělit původní heterogenní množinu objektů na homogennější podmnožiny, které mají nižší entropii (míru neuspořádanosti) než množina původní. Množina obsahující prvky výhradně jedné třídy je dokonale homogenní, tj. má nulovou entropii. Hodnotu entropie lze vypočítat podle vzorce H(X) = n p(x i ) log 2 p(x i ). i=1 V nejhorším případě listy stromu obsahují pouze jeden prvek tento případ je znám jako přeučení (overfitting). Z výsledného stromu, který je po přeučení velmi košatý a nesrozumitelný, lze získat redukovaný strom prořezáním (pruning). S počtem příkladů lineárně roste velikost stromu, s níž souvisí i jeho hloubka. Ta má vliv na výpočetní složitost, která je v závislosti na počtu příkladů polynomická. (Quinlan, 1992) Podpůrné vektory Metoda podpůrných vektorů (Support Vector Machine, SVM ), kterou vyvinul Vladimir Vapnik, také patří mezi algoritmy učení s učitelem. Slouží ke klasifikaci instancí ve vícerozměrném prostoru do dvou tříd nalezením hranice mezi nimi tak, aby hraniční pásmo mezi třídami bylo co největší. Hranice je definována několika příklady, které tvoří tzv. podpůrné vektory (viz obrázek 3).

30 2.6 Klasifikace 30 Obr. 3: Rozdělení prvků pomocí algoritmu SVM. Zdroj: Cortes a Vapnik (1995) Pro nalezení hraniční roviny se používají různé jádrové (kernel) funkce, lineární nebo nelineární polynomická, sigmoidální či radiální bázová funkce. Výpočetní složitost je v závislosti na počtu podpůrných vektorů při trénování kvadratická a při testování lineární. (Soman a Loganathan, 2009) Měření kvality klasifikátoru Vyhodnocení úspěšnosti klasifikátoru obvykle probíhá na základě provedení experimentu a z něho získaných údajů o správně a nesprávně klasifikovaných příkladech. Tyto výsledky experimentu lze zobrazit pomocí konfúzní matice (matice záměn), jejíž schéma uvádí tabulka 5. (Shmueli, Patel a Bruce, 2010) Tab. 5: Matice záměn pro klasifikaci do dvou tříd klasifikovány klasifikovány jako pozitivní jako negativní skutečně true positive false negative pozitivní (TP) (FN) skutečně false positive true negative negativní (FP) (TN) Při klasifikaci do dvou tříd je možné tyto třídy označit jako pozitivní a negativní. Pozitivní, resp. negativní instance, které jsou klasifikovány správně, se označují jako

31 2.7 Shlukování 31 správně pozitivní (true positive, TP), resp. falešně negativní (true negative, TN). Nesprávně klasifikované instance se nazývají falešně pozitivní (false positive, FP) a falešně negativní (false negative, FN). Na základě těchto hodnot je možné definovat řadu metrik pro hodnocení úspěšnosti klasifikátoru (Gu, Zhu a Cai, 2009): Přesnost Přesnost (accuracy) je nejintuitivnějším měřítkem, které udává procento správně klasifikovaných příkladů do všech tříd současně a vypočítá se podle následujícího vzorce: accuracy = T P + T N T P + F T + T N + F N Senzitivita Senzitivita (recall) hodnotí, do jaké míry všechny příklady, které měly být klasifikovány jako pozitivní, takto klasifikovány skutečně byly. recall = T P T P + F N Určitost Určitost (precision), označovaná také jako pozitivní prediktivní hodnota, udává procento příkladů, které jsou klasifikovány jako pozitivní a jsou skutečně pozitivní. precision = T P T P + F P F-measure V případě potřeby vyjádření kvality klasifikátoru pomocí jedné číselné hodnoty se používá metrika F-measure, která agreguje hodnoty senzitivity a určitosti. Odlišnou relativní důležitost hodnot senzitivity a určitosti lze vyjádřit pomocí hodnoty β: F-measure = (β2 + 1) precision recall β 2 precision + recall V případě, že je důležitost senzitivity a určitosti stejná, parametr β má hodnotu 1 a jedná se o jejich harmonický průměr (označuje se jako F 1 score): F 1 score = 2 precision recall precision + recall 2.7 Shlukování Shlukování (clustering) patří mezi algoritmy strojového učení, konkrétně náleží do třídy učení bez učitele (unsupervised learning), jejíž algoritmy se využívají v odvětví data miningu, potažmo i v oblasti dolování znalostí z textových dat. Pojem učení bez učitele implikuje fakt, že trénovací data nespecifikují, co je třeba se naučit

32 2.7 Shlukování 32 (shluky). Shlukování je běžnou deskriptivní úlohou, používá se ke klasifikaci případů, konkrétněji k jejich zatřídění do skupin takovým způsobem, že si jsou jednotlivé instance patřící do stejné skupiny navzájem podobnější než instance z různých skupin. Shluková analýza tedy vychází z podobnosti, resp. vzdálenosti objektů pomocí různých metrik, např. prostřednictvím euklidovské vzdálenosti, manhattanské metriky, Čebyševovy vzdálenosti, kosinové podobnosti, Jaccardova koeficientu, Pearsonova korelačního koeficientu a dalších. Kvantifikaci podobnosti textových dokumentů se věnuje kapitola 2.4. Výsledné shluky mohou být vzájemně disjunktní nebo mohou být reprezentovány komplexněji, může jít například o hierarchické nebo překrývající se kategorie. Na základě cíle shlukování lze shlukovací metody rozdělit do dvou skupin (Skillicorn, 2012): Hierarchické shlukování (hierarchical clustering) Techniky hierarchického shlukování se opírají o základní myšlenku, že čím blíže si nějaké objekty jsou navzájem, tím více spolu souvisí. Tyto algoritmy tedy spojují objekty do shluků na základě jejich vzájemné vzdálenosti. Shluk je možné popsat maximální vzdáleností potřebnou k propojení všech součástí shluku. V různých vzdálenostech se vytvoří různé shluky, což je možné popsat pomocí dendrogramu 4, který osvětluje původ označení hierarchické shlukování : tyto algoritmy neposkytují jediný možný způsob rozdělení data setu, ale místo toho poskytují rozsáhlou hierarchii shluků, které se v určitých vzdálenostech navzájem spojují. K hierarchickému shlukování existují dva přístupy. Rozlišujeme přístup divizní (vychází se z celku, z jednoho shluku, který se následně dělí) a aglomerativní (vychází se z jednotlivých objektů, ze shluků o jednom členu, které se pak spojují). (Berkhin, 2006) Nehierarchické shlukování (flat clustering) Příkladem tohoto přístupu je algoritmus k-means popsaný níže. U nehierarchického (plochého) shlukování je průnik shluků prázdný jedná se o disjunktní množiny. Tento přístup je konceptuálně jednoduchý, efektivní a časově a prostorově méně náročný než předchozí uvedený přístup, obecně však dosahuje horších výsledků než hierarchické shlukování. (Skillicorn, 2012) Na obrázku 4 je znázorněn možný výsledek shlukovací analýzy problému poskytování půjček (bližší popis úlohy na straně 15). Byly zde nalezeny tři shluky, které se překrývají případy mohou náležet do více než jednoho shluku současně. Původní štítky tříd ( x a o na předchozích obrázcích) byly nahrazeny znakem +, což dává najevo fakt, že členství v třídách se již nepovažuje za známé. (Fayyad, Piatetsky-Shapiro a Smyth, 1996) Problém automatické kategorizace patří mezi současné a nejtypičtější úlohy v oblasti zpracování textových dokumentů. Shlukování jako nejběžnější technika 4 Jako dendrogram je označován druh diagramu, který se používá ke znázornění jednotlivých kroků shlukové analýzy. Osa y vyjadřuje vzdálenost, ve které se shluky spojují, zatímco na osu x se vynáší objekty, aby se jednotlivé shluky nepomíchaly.

33 2.7 Shlukování 33 Obr. 4: Demonstrace shlukové analýzy na příkladu poskytování půjček. Zdroj: Fayyad, Piatetsky-Shapiro a Smyth (1996) učení bez učitele umožňuje automatické seskupování neoznačených dokumentů do podmnožin (shluků). Zařazení textového dokumentu do určitého shluku se zakládá na vlastnostech daného dokumentu (na slovech, která se v něm vyskytují). Příklady aplikací shlukování v kontextu dolování znalostí zahrnují objevování homogenních subpopulací zákazníků v marketingových databázích a identifikaci podkategorií spekter z měření oblohy pomocí termálního (infračerveného) dálkového průzkumu. (Skillicorn, 2012) Shlukovací algoritmy Existuje velký počet publikovaných shlukovacích algoritmů aglomerativních (SLINK, CLINK, UPGMA) a divizních metod (opakovaná bisekce), metod založených na hustotě (DBSCAN, EnDBSCAN, OPTICS) a mnoho variací algoritmu k-means popsaného níže (k-medians, k-medoids, k-means++). Žádný ze shlukovacích algoritmů nelze objektivně označit za správný. Nejvhodnější algoritmus pro danou úlohu bývá často vybírán experimentálně. (Aggarwal a Reddy, 2013) k-means Algoritmus k-means je jednoduchý a často používaný nehierarchický shlukovací algoritmus, založený na vzdálenosti bodů v mnoharozměrném prostoru. Každý hodnocený objekt (textový dokument) je reprezentován právě jedním bodem, každý sledovaný atribut pak jednou souřadnicí. Jeho vstupem je množina dat (textových dokumentů) a číslo k udávající počet shluků. Nejdříve se inicializuje k centroidů (budoucích středů shluků) buď na náhodně zvolenou hodnotu, nebo pomocí vhodné heuristiky (využívající např. apriorní znalosti o úloze). Po inicializační části se opakují následující dva kroky:

34 2.7 Shlukování Všechny objekty se přiřadí do shluků určených centroidy na základě vzdálenosti podle zvolené metriky podobnosti (viz kapitola 2.4). 2. Vypočítají se nové hodnoty vektorů k centroidů shluků podle jejich stávajících objektů. Oba uvedené kroky se opakují do té doby, dokud se alespoň jeden objekt přiřadí do jiného shluku, než ve kterém se nacházel v předchozí iteraci. V závislosti na počtu shluků, počtu shlukovaných objektů a počtu dimenzí prostoru má základní algoritmus k-means logaritmickou časovou složitost a lineární prostorovou složitost. (Wu, 2012) Algoritmus je velmi rozšířený a relativně efektivní, co se týká shlukování textových dokumentů. Pokud je předem stanovený počet shluků mnohem menší než počet dokumentů, což je očekávaný případ, je možné algoritmus považovat za efektivní. Při nárůstu počtu shluků však jeho efektivita klesá. V extrémním případě se počet shluků může rovnat počtu dokumentů a každý dokument se pak porovnává se všemi ostatními dokumenty v každé iteraci. (Weiss et al., 2010) Měření kvality shlukování Jak již bylo zmíněno, při shlukování je členství jednotlivých objektů (textových dokumentů) ve třídách neznámé, pokud však je tato informace dostupná, lze kvalitu výsledného řešení shlukovací analýzy s využitím této externí informace zhodnotit, a to zejména pomocí dvou metrik, entropie a čistoty (Zhao a Karypis, 2002): Entropie Metrika entropie (entropy) hodnotí to, jak jsou různé třídy dokumentů rozloženy v rámci každého shluku. Pokud je dán shluk S r o velikosti n r, entropie tohoto shluku je definována jako: E(S r ) = 1 log q q i=1 n i r n r log ni r n r, kde q je počet tříd v datasetu a n r je počet dokumentů i-té třídy, které byly přiřazeny do r-tého shluku. Entropie celého řešení shlukovací analýzy je pak definována jako součet entropií jednotlivých shluků vážených velikostí shluků: entropy = k r=1 n r n E(S r) Ideální řešení by bylo takové, kdy by shluky obsahovaly dokumenty pouze z jediné třídy. V tomto případě by entropie byla rovna nule. Obecně platí, že čím nižší je hodnota entropie, tím lepší je výsledné řešení.

35 2.7 Shlukování 35 Čistota Čistota (purity) zkoumá to, do jaké míry každý shluk obsahuje dokumenty ze své majoritní třídy. Tato hodnota se počítá podobným způsobem jako entropie. Nejdříve je určena čistota jednotlivých shluků pomocí rovnice: P (S r ) = 1 max(n i n r i r), která pro daný shluk S r o velikosti n r vypočte prostý podíl počtu dokumentů největší třídy dokumentů přiřazených do daného shluku a počtu dokumentů (velikosti) daného shluku. Celková čistota řešení shlukovací analýzy se vyčte jako vážený součet čistot jednotlivých shluků: purity = k r=1 n r n P (S r) Obecně platí, že čím vyšší je hodnota čistoty, tím lepší je výsledné řešení. Existují další metriky provádějící externí vyhodnocení kvality shlukování (například metrika F-measure již zmíněná v kapitole 2.6.2), v praktické části této práce však budou z hlediska shlukování sledovány pouze dvě výše popsané metriky, entropie a čistota.

36 3 METODIKA 36 3 Metodika 3.1 Použité kolekce textových dat Veškeré experimenty v této práci, jež jsou navrženy a aplikovány za účelem zjištění vlivu předzpracování na výsledek dolování znalostí z textových dat, jsou prováděny nad textovými daty obsahujícími mínění zákazníků, kteří byli ubytováni v různých hotelech po celém světě a svou rezervaci a i následné hodnocení služeb provedli přes internet prostřednictvím hotelového rezervačního systému 5. Tento web má hotely organizovány v hierarchii kontinent-stát-město-(městská část)-hotel a kromě informacích o cenách, vybavení a podmínkách zaznamenává také již zmíněné recenze zákazníků týkající se jejich pobytu v daném hotelu. Každá recenze se skládá z identifikačního prvku recenzenta, jeho celkového hodnocení (na desetibodové stupnici) a samotné recenze, která je zapsána v přirozeném jazyce a má dvě části: negativní a pozitivní zkušenost s hotelem. (Žižka a Dařena, 2011) V rámci výzkumu na Ústavu informatiky Provozně ekonomické fakulty Mendelovy univerzity v Brně byla tato data stažena, na základě země původu, kterou recenzent uvedl, byl určen jazyk recenze a byla vypuštěna informace o identifikaci recenzenta a o jeho celkovém bodovém hodnocení. Takto vznikly kolekce textových dat v různých přirozených jazycích obsahující hotelové recenze, z nichž většina zahrnuje nedostatky typické pro text psaný v přirozeném jazyce: překlepy, přehozená či chybějící písmena, gramatické chyby apod. Následuje ukázka recenzí, jedné pozitivní (třída 1) a jedné negativní (třída 2), v anglickém jazyce: třída text recenze 1 Not far from the beach, excellent views. Good personnel, very helpful. 2 The breakfast was poor and the reception only manned part time. Každý řádek textového dokumentu představuje jednu recenzi, která má následující formát: třída znak tabulátoru vlastní text recenze znak konce řádku Experimentů se v této práci účastní recenze vyjadřující (ne)spokojenost zákazníků s hotelovými službami ve čtyřech jazycích: v angličtině, francouzštině, němčině a španělštině. Názory, které se zákazníci snažili vyjádřit, jsou pochopitelně obsaženy v jednotlivých slovech často tvořících slovní spojení a věty. Při tvorbě frází a vět v přirozeném jazyce se aplikují gramatická pravidla, avšak na rozdíl od programovacích jazyků je zde jistá volnost, jejíž míra závisí na konkrétní jazykové skupině a na pravidlech daného přirozeného jazyka. 5 Jedná se o rezervační systém Booking.com, který je dostupný na adrese

37 3.2 Základní charakteristiky zkoumaných přirozených jazyků Základní charakteristiky zkoumaných přirozených jazyků Všechny čtyři zkoumané jazyky se píší latinkou a řadí se mezi indoevropské jazyky, což je nejrozšířenější jazyková rodina na světě, která se dále se dělí na jazykové skupiny: románské, keltské, germánské, slovanské, baltské jazyky atd. Čeština patří mezi slovanské jazyky, angličtina a němčina náleží do skupiny germánských jazyků a francouzština a španělština se řadí mezi románské jazyky. Následující odstavce poskytují stručný popis základních charakteristik a gramatických pravidel zkoumaných jazyků. Anglický jazyk Angličtina náleží do skupiny západogermánských jazyků a patří mezi izolační jazyky 6. Anglická abeceda má 26 znaků, všechny bez diakritických znamének (ta se používají výhradně ve slovech cizího původu). Anglický jazyk má pevný slovosled (podmět přísudek předmět), nerozlišuje jmenný rod (v češtině mužský, ženský a střední) s výjimkou osobních a přivlastňovacích zájmen, používá určitý (the) a neurčitý (a, an) člen, ke skloňování podstatných jmen využívá nominativ (1. pád) a genitiv (2. pád), jehož funkce je výhradně přivlastňovací, a množné číslo podstatných jmen tvoří přidáním koncovky -(e)s (kromě malého počtu nepravidelných případů). Jako všechny germánské jazyky rozlišuje i angličtina slabá a silná slovesa: silná (nepravidelná) slovesa mají v minulém čase a příčestí trpném přehlásku (begin began begun), slabá (pravidelná) slovesa mají v minulém čase a příčestí trpném koncovku -ed (watch watched watched). Zvláštností angličtiny oproti ostatním germánským jazykům je rozlišení aspektu průběhovosti pomocí konstruktu to be going to. Velký počet slov je cizího původu (cizí slova pochází zejména z románských jazyků). (Walther, 2012) Německý jazyk Stejně jako angličtina, i němčina patří mezi západogermánské jazyky. Je to jazyk flektivní 7, píše se latinkou se spřežkovým pravopisem a s výjimkou přehlasovaných ä, ö, ü nevyužívá diakritická znaménka. V němčině existuje zvláštní znak ostrého S (ß), který je možné zapisovat jako ss. Německý jazyk má částečně volný slovosled, rozlišuje jmenný rod, používá určitý (der, die, das) a neurčitý (ein, eine) člen, u jmen využívá nominativ (1. pád), genitiv (2. pád), dativ (3. pád) a akuzativ (4. pád). Německý jazyk také rozlišuje slabá slovesa, jež se časují pravidelně, a silná slovesa, u nichž dochází ke změnám samohlásek v kmeni slova. Všechna podstatná jména se píší s velkým počátečním písmenem. (Justová, 2007) 6 Izolační (analytický, amorfní) jazyk pracuje pouze s volnými morfémy, nepoužívá tedy skloňování či časování slov, jejich forma zůstává stejná. Gramatické funkce jsou vyjádřeny pomocí slovosledu a tzv. funkčních slov. Kromě angličtiny do této skupiny patří i francouzština. 7 Flektivní jazyky představují jednu ze skupin syntetických jazyků, které jsou protikladem analytických jazyků. Flektivní jazyk vyjadřuje gramatické funkce pomocí flexe (ohýbání) skloňování a časování, předpon a přípon. Do této skupiny patří mimo německý jazyk i čeština a španělština.

38 3.3 Použité softwarové nástroje 38 Francouzský jazyk Francouzština se řadí do skupiny románských jazyků, které se vyvinuly z latiny. Jedná se o analytický jazyk se slabě vyvinutou flexí, píše se latinkou s diakritickými znaménky (např. ç, à, é, î, ö) a používá částečně spřežkový pravopis (např. que, aux). Francouzský jazyk má relativně pevný slovosled, rozlišuje jmenný rod, používá určitý (le, la, les) a neurčitý (un, une, des) člen. Také zde existují slabá a silná slovesa v závislosti na jejich (ne)pravidelnosti. Francouzský jazyk u sloves rozlišuje šest minulých časů, jeden přítomný a tři budoucí. (Geissler a Sanchez, 2007) Španělský jazyk Španělština, stejně jako francouzština, patří mezi románské jazyky. Z hlediska morfologické klasifikace se řadí do skupiny jazyků flektivních a zapisuje se latinkou s přidaným znakem ñ a se spřežkami (ch a ll). Přízvučné samohlásky se označují čárkou (á, é, í, ó, ú) v případě, že je tento akcent při výslovnosti nepravidelný. Španělský jazyk má volný slovosled, rozlišuje dva mluvnické rody (mužský a ženský), používá člen určitý (el, la, los, las) a neurčitý (un, una, unos, unas) a rozlišuje pravidelná a nepravidelná slovesa. (Macíková a Mlýnková, 2010) 3.3 Použité softwarové nástroje V této kapitole jsou popsány softwarové nástroje použité při provádění experimentů. Nejdříve jsou zmíněny nástroje pro předzpracování textových dat, dále pak framework umožňující převod textových dat do vektorové reprezentace a nakonec jsou rozebrány nástroje sloužící k samotnému dolování znalostí z dat Předzpracování textových dokumentů Kontrola pravopisu Za účelem kontroly a automatické opravy pravopisu je v experimentech využit nástroj, který byl vyvinut v rámci výzkumu na Ústavu informatiky Provozně ekonomické fakulty Mendelovy univerzity v Brně. Tento software pracuje na principu využití již vytvořeného slovníku aplikace MS Word 2010 s rozsáhlou databází pro různé jazyky, kdy podpora pro konkrétní jazyk je závislá na nainstalované jazykové sadě MS Office Před spuštěním je nutné zvolit přirozený jazyk textových dat na základě této volby se bude používat odpovídající slovník. Vstupem tohoto nástroje je textový soubor obsahující písmena, číslice a interpunkční znaménka. Nástroj nejdříve provádí kontrolu správnosti všech termů pomocí regulárního výrazu, pak data rozděluje do datové struktury typu vektor-vektor (primární vektor reprezentuje fyzické řádky textového dokumentu, sekundární vektor jednotlivé termy). Následuje další fáze běhu programu, která je časově náročná a zabere až 80 % veškerého programového úsilí, a to samotná kontrola a oprava jednotlivých termů pomocí speciální knihovny pro práci s jazykovými slovníky v aplikaci MS Word. Výsledkem zpracování textového dokumentu jsou opravené vstupní soubory pro jednotlivé jazyky. (Semrád a Dařena, 2013)

39 3.3 Použité softwarové nástroje 39 Stemming Stemming textových dat je v experimentech prováděn pomocí dalšího nástroje vyvinutého v rámci výzkumu na Ústavu informatiky PEF MENDELU. Tento program je spustitelný z příkazové řádky a je implementován v programovacím jazyce Perl s využitím modulu Lingua::Stem::Snowball 8, což je modul programovacího jazyka Perl pro Snowball stemmery napsané v programovacím jazyce C, který pomocí optimalizovaných metod umožňuje stemming slov ve velice krátkém čase. Vstupem nástroje je textový soubor obsahující libovolné znaky, z něhož jsou nejdříve odstraněny všechny znaky, které nejsou součástí nějakého slova. Tento vstupní textový soubor musí být obsahem adresáře, jehož název odpovídá zkratce přirozeného jazyka daného souboru. Program zpracovává obsah předaného souboru, transformuje jej a tento modifikovaný obsah ukládá do nového souboru, jehož název obsahuje příznak o proběhlé transformaci. (Řezníček a Dařena, 2013) Odstranění stopslov Ze zdrojových hotelových recenzí jsou v rámci fáze předzpracování dat také odstraněna stopslova určená na základě veřejně dostupných obecných seznamů standardních stopslov. Využité seznamy stopslov pro jednotlivé zkoumané jazyky jsou k dispozici v rámci projektu stop-words 9, jenž aktuálně zastřešuje kolekci seznamů stopslov ve 29 jazycích. Samotné odstranění stopslov provádí makro implementované v programovacím jazyce Visual Basic, a to konkrétně nahrazením daných termů znakem mezery Převod textových dokumentů do vektorové reprezentace K převodu textových dokumentů do modelu vektorového prostoru je využíván softwarový framework vyvíjený v rámci probíhajícího výzkumu na Ústavu informatiky PEF MENDELU. Nástroj je implementován v programovacím jazyce Perl a má grafické uživatelské rozhraní, lze ho však používat i prostřednictvím příkazové řádky. Základem aplikace je modul TextMining.pm, který umožňuje převést vstupní textový soubor, v němž ignoruje celé tagy (např. <a href=... >, <em>), entity (např., α) a všechny znaky kromě písmen (číslice a interpunkční znaménka), do podoby vektorové reprezentace s širokou škálou možných nastavení: typ lokálních a globálních vah, minimální a maximální globální frekvence výskytu termu ve všech dokumentech (v celém textovém souboru), minimální a maximální četnost výskytu termu v jednotlivých dokumentech (v řádcích souboru), minimální a maximální délka slova, výstupní formát (ARFF pro aplikaci Weka, CLUTO pro program Cluto, SVMlight pro nástroj SVMlight, YALE pro aplikaci RapidMiner, C5 pro software C5/See5, CSV a další), výstupní adresář a soubor, možnost vytvoření či použití slovníku, definice seznamu stopslov pro jejich odstranění atd. Výstupem je soubor, popř. více souborů, v požadovaném výstupním formátu s případným vygenerovaným slovníkem. (Žižka a Dařena, 2010) Použité negativní slovníky jsou dostupné na adrese a také v přílohách této práce od strany 82.

40 3.3 Použité softwarové nástroje Weka Pro řešení klasifikačních úloh metodou rozhodovacího stromu byl v této práci zvolen softwarový nástroj Weka, který poskytuje řadu algoritmů strojového učení. Jedná se o svobodný multiplatformní software napsaný v programovacím jazyce Java a vydaný pod licencí GNU GPL 10. Weka umožňuje zpracování dat o velkých objemech a zahrnuje nástroje pro předzpracování dat, klasifikaci, regresi, shlukování, asociační pravidla a vizualizaci. Nástroj je možné ovládat jak prostřednictvím grafického uživatelského rozhraní, tak z příkazové řádky. Druhý jmenovaný způsob použití je méně paměťově náročný a nabízí funkcionalitu, která není dostupná přes grafické uživatelské rozhraní. (Witten, Frank a Hall, 2011) Obr. 5: Logo nástroje Weka Vstupem všech algoritmů je soubor ve formátu ARFF, což je textový soubor, který se dělí na dvě části, hlavičku a data. Hlavička obsahuje název relace a seznam atributů a jejich typů. Weka podporuje čtyři různé typy atributů: číselný atribut, nominální atribut (výčet hodnot), řetězec a datum. Poslední deklarovaný atribut uvádí možné třídy instancí. Datová část souboru obsahuje vlastní instance klasifikačního problému (jednotlivé řádky), v nichž jsou hodnoty jednotlivých atributů odděleny čárkami a uvedeny ve stejném pořadí jako v deklaraci v hlavičce. Tab. 6: Ukázka části souboru ve formátu ARFF vygnerovaného z textových ACCESS AIRPORT WRONG YOUNG CLASS 0,0,0,3.62,0,0,0,0,0,0,0,0,0,2.93,0,0,0,0,0,...,0,0,0,0,2 0,0,0,0,0,0,0,0,3.763,0,0,0,0,0,0,0,0,0,0,0,...,0,0,5.71,2 4.09,0,0,0,0,0,0,0,0,0,0,0,1.19,0,0,0,0,0,0,...,0,0,0,0, GNU General Public License je široce používanou licencí pro svobodný software, který koncovým uživatelům umožňuje daný software používat, studovat, sdílet, kopírovat a upravovat.

41 3.3 Použité softwarové nástroje 41 Tabulka 6 uvádí příklad části ARFF souboru vygenerovaného pro soubor hotelových recenzí v podobě nestrukturovaných textových data. Seznam atributů zde představuje slovník tokenů, které reprezentují jednotlivé složky vektoru. Jeden řádek odpovídá jedné recenzi. Drtivá většina hodnot v datové části je nulová jedná se o prostorově náročnou reprezentaci hustým vektorem, která není výhodná pro zpracování nestrukturovaných textových dat. V případě rozhodovacího stromu, klasifikátoru J48, který je implementací algoritmu C4.5 popsaného na straně 29, je po jeho natrénovaní a otestování výstupem samotný strom, doba tvorby a testování modelu, matice záměn a další údaje měřící kvalitu klasifikátoru pro trénovací a pro testovací data SVMlight Jako druhý nástroj pro klasifikaci, tentokrát metodou podpůrných vektorů (viz strana 29), byl v této práci zvolen nekomerční software SVMlight, který je široce používán pro klasifikaci textu, úlohy rozpoznání obrazu, v bioinformatice a v lékařských aplikacích. Cílem je naučení funkce na sadě trénovacích dat tak, aby byla schopná klasifikovat sadu nových, neznámých příkladů co možná nejpřesněji. Algoritmus je rychlý a optimalizovaný, je schopen efektivně řešit problémy s mnoha tisíci vektory a s několika stovkami tisíc trénovacích příkladů a podporuje jak standardní, tak uživatelsky definované jádrové funkce. Jeho vstupem jsou soubory s příponou.dat obsahující řídké vektory a jako výstup poskytuje hodnoty počtu nalezených podpůrných vektorů, doby běhu algoritmu a informace pro hodnocení kvality klasifikace: přesnost (accuracy), určitost (precision) a senzitivitu (recall). Software se skládá ze dvou hlavních modulů: svm learn a svm classify. První z modulů slouží k naučení modelu na trénovací množině dat pomocí specifikované jádrové funkce. Druhý modul pak provede predikci nad testovací sadou dat s využitím modelu, který byl vytvořen pomocí trénovacích dat. (Joachims, 1999) Cluto Pro provedení shlukování byl zvolen program Cluto, velmi rozšířený a volně dostupný multiplatformní softwarový nástroj implementovaný v programovacím jazyce C. V současné době jsou dostupné binární distribuce pro platformy Linux, SunOS (Solaris), OS X a Microsoft Windows. Systém je schopen zpracovat velmi rozsáhlé datasety obsahující stovky tisíc instancí a desítky tisíc rozměrů. Cluto poskytuje dvě rozšíření: gcluto (grafická nadstavba) a wcluto (pro analýzu genomu v oblasti bioinformatiky). V rámci systému je možné nastavit velké množství parametrů shlukování, např. řadu shlukovacích algoritmů (opakovaná bisekce, k-means, grafové algoritmy atd.), různé metriky podobnosti (euklidovská vzdálenost, kosinová podobnost, korelační koeficient, rozšířený Jaccardův koeficient a uživatelsky definované metriky), množství kriteriálních funkcí určujících vzdálenost mezi shluky v každé iteraci algoritmu, řadu aglomerativních spojovacích schémat (SLINK, CLINK, UPGMA atd.), různé možnosti vizualizace a formáty výstupu. (Karypis, 2003)

42 3.4 Použitý hardware Použitý hardware Pro předzpracování dat a následné dolování znalostí byly použity dva notebooky, jeden s operačním systémem Linux, druhý s platformou Microsoft Windows. Je třeba mít na paměti, že dosažené výsledky experimentů jsou definovány právě použitým hardwarem, a to zejména časová náročnost jejich provedení a objem dat, který bylo možné zpracovat s ohledem na výpočetní možnosti. Na linuxovém stroji probíhal převod textových dat do vektorové reprezentace, klasifikace metodou podpůrných vektorů pomocí nástroje SVMlight a shlukování prostřednictvím systému Cluto. Parametry tohoto počítače jsou následující: operační systém: Linux generic i bit, distribuce Ubuntu procesor: Intel Core 2 Duo P8400, 2.26 GHz operační paměť: MB, DDR2 RAM (800 MHz) pevný disk: 320 GB, 5400 ot./min název modelu: TOSHIBA Portégé M800-10Z Osobní počítač s platformou Windows byl využit k veškerém předzpracování textových dat (kontrola a oprava pravopisu, odstranění stopslov a stemming) a k provedení klasifikace pomocí rozhodovacího stromu J48 programem Weka. Tento počítač má následující konfiguraci: operační systém: Windows 7 Professional 64-bit, Service Pack 1 procesor: Intel Core i3-350m, 2.26 GHz operační paměť: 3 GB, DDR3 RAM (800 MHz) pevný disk: Hitachi, 320 GB, 5400 ot./min název modelu: Acer TravelMate 8572T 3.5 Průběh experimentu Veškeré experimenty byly prováděny nad stejnou množinou původních textových dat, která byla v rámci této práce předzpracována různými metodami a jejich kombinacemi, při tvorbě trénovacích a testovacích množin dat pro klasifikační metody bylo vždy dodrženo jejich identické rozdělení u jednotlivých sad různě předzpracovaných textových dat a pro výsledné vyhodnocení náročnosti a kvality dolování znalostí z textových dat byly použity stejné metriky to vše z toho důvodu, aby byly zjištěné výsledky srovnatelné.

43 3.5 Průběh experimentu Nasazení metod předzpracování textových dat Zkoumané metody předzpracování textových dat byly aplikovány na hotelové recenze v anglickém, německém, francouzském a španělském jazyce. Pro každý z těchto přirozených jazyků bylo předzpracováno ohodnocených recenzí, a to prostřednictvím různých metod předzpracování textových dat a jejich kombinací. Výsledkem této fáze je 8 sad textových dokumentů po 200 tisících recenzích pro každý ze zkoumaných přirozených jazyků. Celkem tedy bylo předzpracováno recenzí, které jsou připravené k dalšímu zpracováni algoritmy strojového učení. Jedná se o kolekce s textovými daty: 1. bez aplikace metod předzpracování textu Cheap accomodation in nice area 2. s opraveným pravopisem 3. bez stopslov Cheap accommodation in nice area Cheap accomodation nice area 4. s aplikovaným stemmingem cheap accomod in nice area 5. s opraveným pravopisem a bez stopslov Cheap accommodation nice area 6. s opraveným pravopisem a s aplikovaným stemmingem cheap accommod in nice area 7. bez stopslov a s aplikovaným stemmingem cheap accomod nice area 8. s opraveným pravopisem, bez stopslov a s aplikovaným stemmingem cheap accommod nice area Metody předzpracování byly aplikovány v uvedeném pořadí a to z důvodu časové náročnosti kontroly a opravy pravopisu, kterou tím pádem bylo třeba nad daty provést jen jednou. Celková doba potřebná pro vytvoření výše uvedených 8 sad pro jeden přirozený jazyk činila průměrně 37 hodin, tedy celkem 148 hodin pro všechny jazyky, z toho přibližně 85 % času zabrala časově nejnáročnější oprava pravopisu.

44 3.5 Průběh experimentu 44 Vliv metod předzpracování na textová data Aplikací metod předzpracování by mělo být docíleno zkvalitnění kolekce textových dat redukcí šumu a irelevantního obsahu. Dopad aplikace jednotlivých metod předzpracování na samotná textová data, a to konkrétně na recenze ve španělštině, demonstruje graf na obrázku 6. Červenou barvou jsou v grafu kvantifikovány velikosti textových souborů na disku a modrou barvou jsou indikovány velikosti slovníků, tedy počty unikátních termů v jednotlivých textových souborech. Informace o velikostech slovníků byly získány ze souborů vygenerovaných v rámci převodu textu do vektorové reprezentace, konkrétně do formátu určeného pro zpracování programem Weka (více o transformaci textových dat do vektorové podoby v kapitole 3.5.2). Aby mohly být obě zkoumané veličiny v grafu názorně porovnány, byla provedena jejich normalizace do intervalu < 0, 1 >. Obr. 6: Vliv předzpracování na velikost textových souborů a počet jejich unikátních termů Z grafu je patrné, že jak velikost textových souborů na disku, tak velikost jejich slovníků klesala vlivem aplikace metod předzpracování maximální velikosti měly textové soubory bez jakéhokoli předzpracování, minimálních velikostí bylo dosaženo aplikací všech tří zkoumaných metod předzpracování textu. Oprava pravopisu měla velmi malý vliv na velikost souboru, snížení velikosti slovníku zde však bylo značné. U této metody se dá se usuzovat na větší množství opravených překlepů (zmenšení počtu unikátních termů), kdy byla chybná slova nahrazena za jejich pravopisně správnou formu o podobné délce (zachování počtu znaků v souboru a zároveň tedy i jeho velikosti). Naproti tomu po odstranění stopslov byl slovník redukován pouze nepatrně, zatímco zmenšení velikosti souborů bylo významné. U této metody došlo k odstranění několika málo stopslov (např. v případě španělštiny jich bylo 345), slovník unikátních termů se tedy zmenšil právě o toto číslo. Definovaná stopslova se však v dokumentech vyskytovala velmi často, jejich odstranění (nahrazení za znak mezery) tedy dramaticky zmenšilo velikost souboru na disku.

45 3.5 Průběh experimentu 45 Aplikace stemmingu měla velmi výrazný vliv jak na velikost textových souborů z důvodu odstranění částí slov, tak na počet tokenů ve slovníku vlivem sjednocení různých termů do podoby jejich kořene. Určení objemů textových souborů pro další zpracování Z hlediska dalšího zpracování bylo nutné určit objemy jednotlivých textových souborů tak, aby pokusy byly proveditelné. Experimentálně byly na základě výpočetní náročnosti jednotlivých algoritmů dolování znalostí z dat zjištěny velikosti textových souborů takové, aby bylo možné veškeré navržené experimenty provést prostřednictvím dostupného hardwarového vybavení uvedeného v kapitole 3.4. Tabulka 7 uvádí výsledné počty hotelových recenzí v jednotlivých souborech následně zpracovávaných klasifikačními metodami. Trénovací a testovací množiny dat jsou disjunktní (neobsahují stejné recenze) a počet recenzí v testovacích datech je vždy přibližně třetinový oproti jejich počtu v odpovídající trénovací množině. Tab. 7: Počty recenzí v textových souborech pro zpracování algoritmy J48 a SVM J48 SVM objem objem objem objem trénovacích dat testovacích dat trénovacích dat testovacích dat Pro účely shlukování byly pro každou z uvedených osmi sad vytvořeny textové soubory o objemech 1 000, 5 000, , a recenzí. Změna označení tříd klasifikace Mimo výše zmíněnou přípravu textových dat bylo ještě nutné provést poslední úpravu před započetím fáze převodu textu do modelu vektorového prostoru. Jedná se o změnu ohodnocení výsledných tříd klasifikace. Zdrojové i předzpracované recenze patří do jedné ze dvou tříd (pozitivní, nebo negativní), které jsou v hotelových recenzích označeny číslicemi 1 a 2, avšak nástroj SVMlight požaduje označení těchto tříd číslicemi 1 a -1. Tato úprava byla provedena pouze nad daty určenými pro klasifikaci metodou podpůrných vektorů (viz pravá polovina tabulky 7) Převod textových dat do vektorové reprezentace Po předzpracování textových dat bylo nutné tato data převést do takové podoby, aby mohla být dále zpracována algoritmy strojového učení. Každá recenze byla pomocí nástroje popsaného v kapitole převedena na vektor skládající se z jednotlivých termů, které jsou reprezentovány číselně na základě jejich frekvencí výskytu v recenzích. Textový dokument s recenzemi byl tedy transformován do podoby matice, v níž řádek odpovídá jedné recenzi a sloupec termu unikátnímu napříč všemi recenzemi.

46 3.5 Průběh experimentu 46 Při použití nástroje pro převod textových dat do vektorové reprezentace byla nastavena spodní hranice pro globální frekvenci výskytu slova na hodnotu 3. Díky tomuto nastavení byla zredukována velikost slovníku odstraněním slov, která se ve všech recenzích vyskytovala pouze třikrát a méně často. Tato úprava zajistila snížení dimenzionality problému a tedy i jeho výpočetní náročnosti, aniž by došlo k patrné ztrátě důležitých informací vzhledem k vysokému počtu zpracovávaných recenzí. V této fázi provádění experimentů vznikly soubory s vektorovou reprezentací textových dat v různých formátech vhodných pro jednotlivé používané nástroje. Jak již bylo zmíněno v kapitole 3.3.3, formát vstupních dat pro nástroj Weka představuje reprezentace hustými vektory, která je prostorově náročná. Vstupem pro softwarové nástroje SVMlight a Cluto jsou soubory s reprezentací řídkým vektorem. Graf na obrázku 7 poskytuje pro soubory různých formátů srovnání jejich velikostí na disku. Porovnává původní textové soubory, z nichž byly vygenerovány soubory ve vstupních formátech pro nástroje Weka, SVMlight a Cluto, právě s těmito třemi typy souborů. Velikosti souborů jsou zde uvedeny v MB. Obr. 7: Srovnání velikostí textových souborů a souborů s vektorovou reprezentací ve formátech pro jednotlivé dataminingové nástroje v MB Srovnání bylo provedeno pro různé přirozené jazyky nad soubory s recenzemi s vážením typu TF-IDF. Z grafu je patrný obrovský rozdíl mezi reprezentacemi řídkými a hustými vektory, který je až šedesátinásobný. Rozdíl mezi velikostí textového souboru a velikostí souboru s reprezentací hustým vektorem je někdy i více než stonásobný. Se všemi třemi nástroji dolování znalostí z dat byly provedeny zkušební pokusy a byl zjištěn vliv různých metod výpočtu váhy termů na kvalitu výsledků dolování. Z těchto pokusů vyplynulo, že na kvalitu text miningu má nejlepší vliv použití metody TF-IDF. Tuto metodu vážení jsem tedy zvolila pro klasifikaci pomocí rozhodovacího stromu, zatímco pro shlukování a klasifikaci pomocí SVM jsem se z důvodu jejich krátké doby běhu rozhodla vliv různých vah zjistit důkladněji. Pro nástroje SVMlight a Cluto tedy byly nad původními osmi sadami předzpracovaných dat pro všechny zkoumané přirozené jazyky vygenerovány 4 sady vektorových reprezentací lišící se metodou výpočtu váhy termů: TP (přítomnost termu), TF (frekvence termu), TP-IDF a TF-IDF.

47 3.5 Průběh experimentu 47 Pro zpracování nástrojem Weka bylo celkem vygenerováno 192 souborů s váhou termů TF-IDF: testovací a trénovací sady pro 3 různé objemy dat nad 8 kolekcemi různě předzpracovaných textových recenzí ve 4 přirozených jazycích. Pro zpracování nástrojem SVMlight bylo celkem vygenerováno 768 souborů: testovací a trénovací sady pro 3 různé objemy dat s aplikací 4 odlišných metod vážení termů nad 8 kolekcemi různě předzpracovaných textových recenzí ve 4 přirozených jazycích. Pro zpracování nástrojem Cluto bylo celkem vygenerováno 640 souborů: vektorové reprezentace pro 5 různých objemů dat s aplikací 4 odlišných metod vážení termů nad 8 kolekcemi různě předzpracovaných textových recenzí ve 4 přirozených jazycích. Vytvoření těchto souborů s vektorovou reprezentací textových dat trvalo přibližně 72 hodin Nasazení metod dolování znalostí z textových dat Po výše popsaném předzpracování textových dat a jejich rozdělení a transformaci do modelu vektorové reprezentace bylo možné přistoupit k aplikaci zkoumaných algoritmů strojového učení (klasifikace, shlukování). Této fázi provádění experimentů se věnují následující odstavce. Klasifikace pomocí rozhodovacího stromu Rozhodovací strom vybírá důležitá slova na základě jejich schopnosti snížit entropii rozdělením původní smíšené množiny (pozitivní a negativní recenze) na podmnožiny v ideálním případě obsahující buď pouze pozitivní, nebo pouze negativní recenze. Pomocí klasifikátoru J48 nástroje Weka (verze ) bylo provedeno necelých 200 experimentů. Vzhledem k takto vysokému počtu pokusů nebylo využito grafické uživatelské rozhraní, které Weka poskytuje; experimenty byly provedeny automatizovaně, v prostředí příkazové řádky, a to konkrétně příkazem: java -cp $jar weka.classifiers.trees.j48 -t $train -T $test V tomto příkazu proměnná $jar v přepínači -cp (classpath) specifikuje cestu k souboru weka.jar, přepínač -t prostřednictvím proměnné $train určuje umístění souboru s trénovacími recenzemi a přepínač -T pomocí proměnné $test definuje umístění souboru s testovacími recenzemi. Příkaz byl v této podobě funkční na použitém hardwarovém vybavení pouze při použití nad soubory o objemech a recenzí. Při pokusu o jeho spuštění nad souborem trénovacích dat obsahujícím recenzí došlo k překročení aktuálních paměťových možností stroje. Prostřednictvím Java Virtual Machine 11 byla vyhozena výjimka 11 Java Virtual Machine (JVM) je sada programů a datových struktur využívajících modul virtuálního stroje ke spuštění dalších programů a skriptů vytvořených v programovacím jazyce Java.

48 3.5 Průběh experimentu 48 java.lang.outofmemoryerror a běh programu byl tak ukončen. Tento problém bylo nutné obejít aplikací dalších dvou přepínačů: -XX:-UseGCOverheadLimit -Xmx3G První z uvedených přepínačů vypíná omezení času virtuálního stroje dedikovaného pro garbage collector 12. Druhý z přepínačů nastavuje maximální velikost haldy, kterou může program využít (v tomto případě 3 GB RAM, tedy maximální možné množství operační paměti, které poskytuje využívaný stroj). Ani toto nastavení však nebylo úspěšné při pokusu o použití nad souborem o objemu recenzí. Při spouštení nástroje byly použity pouze výše zmíněné přepínače, rozhodovací strom byl tedy generován s výchozím nastavením parametrů algoritmu: -C 0.25 práh spolehlivosti (confidence), který rozhoduje o prořezání stromu -M 2 minimální počet instancí v listu Oba uvedené parametry umožňují zabránit přeučení klasifikátoru a získat co možná nejvyšší klasifikační obecnost. Sledovanými ukazateli jsou mimo informace o době běhu algoritmu také údaje v maticích záměn, které algoritmus poskytuje jako výstup a z nichž je možné vypočítat hodnoty F 1 score (viz strana 31), které představují požadovanou cílovou metriku pro měření kvality klasifikátoru. Celková doba zpracování všech 192 souborů algoritmem J48 byla přibližně 84 hodin, kdy naprostou většinu této doby zabralo vytváření stromu, testování vygenerovaného modelu představovalo pouze nepatrnou část doby zpracování. Rozdíly v časové náročnosti mezi jednotlivými přirozenými jazyky byly značné. Souhrnné doby běhu algoritmu pro jednotlivé přirozené jazyky uvádí tabulka 8. Tab. 8: Souhrnné doby zpracování dat nástrojem Weka z hlediska jednotlivých přirozených jazyků přirozený jazyk angličtina němčina francouzština španělština doba zpracování [hod] Klasifikace metodou podpůrných vektorů Experimenty s klasifikací pomocí podpůrných vektorů byly stejně jako v případě rozhodovacího stromu prováděny za účelem rozdělení smíšené množiny recenzí do dvou kategorií a rovněž automatizovaně, v prostředí příkazové řádky. Z provedených zkušebních experimentů vyplynulo, že kvalita klasifikace s využitím polynomické, sigmoidální i radiální bázové funkce je oproti lineární bázové funkci nižší. Čím složitější byla jádrová funkce, tím déle 12 Garbage collector je část běhového prostředí programovacího jazyka, která má za úkol automaticky určit již nepoužívané části paměti a uvolnit je pro další použití.

49 3.5 Průběh experimentu 49 klasifikace trvala. Z tohoto důvodu byl nástroj SVMlight skládající se z učícího a testovacího modulu spouštěn s výchozími hodnotami parametrů pro algoritmy, tedy s využitím lineární jádrové funkce. Součástí skriptu automaticky spouštějícího algoritmy nad všemi 768 připravenými soubory jsou následující dva příkazy:./svm learn $train./svm classify $test svm model První z příkazů používá trénovací množinu dat (specifikovanou pomocí proměnné $train) k vytvoření modelu, který je defaultně ukládán do souboru svm model. Tento natrénovaný model je následně ve druhém příkazu použit ke klasifikaci testovacích dat (proměnná $test). Sledovaným výstupem u obou příkazů je doba jejich provádění a v případě druhého příkazu jsou středem zájmu hodnoty metrik přesnosti (accuracy), určitosti (precision) a senzitivity (recall), z nichž je možné následně vypočítat hodnoty F 1 score představující cílovou metriku kvality klasifikátoru. Algoritmus SVM je velmi efektivní provedení všech 384 experimentů trvalo jednu hodinu. Jak v případě rozhodovacího stromu, tak i zde naprostou většinu výpočetní doby představovalo vytváření modelu, rozdíly mezi dobou zpracování recenzí v jednotlivých přirozených jazycích však byly zanedbatelné (viz tabulka 9). Tab. 9: Souhrnné doby zpracování dat nástrojem SVMlight z hlediska jednotlivých přirozených jazyků přirozený jazyk angličtina němčina francouzština španělština doba zpracování [min] Shlukování Prostřednictvím příkazové řádky byl automatizovaně spouštěn i shlukovací algoritmus systému Cluto, a to s následujícím nastavením parametrů: vcluster -clmethod=direct -sim=cos -crfun=h2 -rclassfile=$file.rlabel $file $nc Příkaz spouští program vcluster 13, jehož vstupem je datový soubor obsahující vektorový model reprezentace textových dat v podobě matice (proměnná $file). Hodnota direct přepínače -clmethod určuje algoritmus shlukovací analýzy k-means (přímá metoda), hodnota cos v přepínači -sim definuje kosinovou podobnost jako metodu pro určení podobnosti a hodnota h2 přepínače -crfun stanovuje kriteriální funkci H2. Použité parametry byly zvoleny na základě výsledků výzkumu (Žižka, Dařena a Burda, 2012) uskutečněného na Ústavu informatiky PEF MENDELU, jehož experimenty byly také prováděny nad kolekcemi hotelových recenzí. Z výsledků výzkumu 13 Systém Cluto poskytuje kromě programu vcluster i program scluster, jehož vstupem je soubor obsahující matici sousednosti grafu podobnosti mezi shlukovanými objekty. (Karypis, 2003)

50 3.5 Průběh experimentu 50 vyplývá, že z hlediska minimalizace entropie byla nejúspěšnější přímá metoda (oproti opakované bisekci a grafovým algoritmům), kosinová podobnost (oproti Pearsonovu korelačnímu koeficientu a euklidovské vzdálenosti) a kriteriální funkce H2. V rámci této práce je zkoumán vliv velikosti shluků (proměnná $nc nabývající pěti různých hodnot) na kvalitu a časovou náročnost shlukovaní. K externímu vyhodnocení kvality shlukování slouží informace o skutečné náležitosti recenzí do tříd poskytnutá prostřednictvím přepínače -rclassfile s proměnnou $file.rlabel. Sledovanými ukazateli u shlukovací analýzy jsou kromě doby běhu algoritmu také metriky kvality shlukování, tedy hodnoty entropie (entropy) a čistoty (purity). U každého ze 640 souborů připravených pro zpracování nástrojem Cluto byl zkoumán vliv pěti různých velikostí shluků (2, 3, 5, 10 a 50). Prostřednictvím shlukovací analýzy bylo tedy provedeno dohromady experimentů, a to za celkovou dobu 18 hodin. Rozdíly v době zpracování dat z hlediska zkoumaných přirozených jazyků, které uvádí tabulka 10, byly malé. Tab. 10: Souhrnné doby zpracování dat nástrojem Cluto z hlediska jednotlivých přirozených jazyků přirozený jazyk angličtina němčina francouzština španělština doba zpracování [min] S algoritmy strojového učení bylo celkem provedeno experimentů. Prezentace a zhodnocení dosažených výsledků je náplní následujících kapitol.

51 4 VÝSLEDKY EXPERIMENTŮ 51 4 Výsledky experimentů V této kapitole jsou představeny výsledky dosažené provedením navržených experimentů. Tyto prezentované výsledky poskytují srovnání vlivu jednotlivých zkoumaných metod předzpracování textu na kvalitu a časovou náročnost text miningu. Pro přehlednost jsou v níže uvedených grafech používány zkratky těchto metod předzpracování následujícím způsobem: bez prav stop stem prav + stop prav + stem stop + stem vše bez aplikace metod předzpracování textu s opraveným pravopisem bez stopslov s aplikovaným stemmingem s opraveným pravopisem a bez stopslov s opraveným pravopisem a s aplikovaným stemmingem bez stopslov a s aplikovaným stemmingem s opraveným pravopisem, bez stopslov a s aplikovaným stemmingem U všech tří zkoumaných algoritmů strojového učení jsou vždy prezentovány výsledky získané pro jednotlivé přirozené jazyky, po nichž následuje porovnání vlivu metod předzpracování napříč všemi čtyřmi jazyky. V rámci zkoumaných jazyků jsou vždy srovnávány jednotlivé objemy textových dat, popř. použité metody vážení termů a velikosti shluků. Naproti tomu ve srovnáních napříč přirozenými jazyky jsou vždy použity hodnoty získané pro maximální zkoumaný objem dat, popř. pro vybranou metodu výpočtu hodnoty váhy termů a pro zvolenou velikost shluků. Největší objem dat jsem zvolila pro srovnání dosažených výsledků napříč zkoumanými jazyky kvůli jejich vyšší kvalitě dolování znalostí oproti menším objemům a z důvodu vypozorované nestability výsledků časové náročnosti u menších objemů dat, jejichž hodnoty jsou často v řádech sekund pro všechny tři zkoumané algoritmy strojového učení. Z těchto důvodů považuji maximální objemy dat nejvíce reprezentativní. Pro účely vizualizace a hodnocení časové náročnosti v grafech byly výsledné absolutní hodnoty doby zpracování normalizovány podle objemu dat, popř. podle velikostí shluků. Prezentované výsledky doby zpracování se tedy většinou vyskytují v intervalu < 0, 1 >, absolutní hodnoty času (v sekundách či hodinách) jsou prezentovány až v rámci jednoho zvoleného objemu dat, popř. jedné vybrané velikosti shluků. Výsledná kvalita text miningu (metriky F 1 score na testovacích datech, resp. entropie a čistota) je vždy uváděna v procentech. Do textu této kapitoly jsem zahrnula pouze nové, a podle mého názoru zajímavé a důležité grafy. Naopak grafy vyznačující se analogickými charakteristikami či vzory jsou zařazeny do příloh. Uváděné výsledky srovnání jsou specifické pro použité hardwarové vybavení popsané v kapitole 3.4.

52 4.1 Klasifikace pomocí rozhodovacího stromu Klasifikace pomocí rozhodovacího stromu V této kapitole jsou prezentovány výsledky pokusů provedených prostřednictvím nástroje Weka a jeho klasifikátoru J48. Pomocí tohoto algoritmu byly realizovány experimenty pro 3 různé objemy dat s váhou termů TF-IDF nad 8 kolekcemi různě předzpracovaných textových recenzí ve 4 jazycích Anglický jazyk Kvalita klasifikace Výsledky klasifikace recenzí v angličtině pomocí rozhodovacího stromu ukazují (viz graf na obrázku 8), že na její kvalitu má výrazný vliv objem zpracovávaných textových dat čím více recenzí obsahuje soubor, tím kvalitnější rozhodovací strom je vygenerován. Nejvyšších hodnot metriky F 1 score na testovacích datech dosahuje klasifikátor při naučení na trénovacích datech s recenzemi a při následném testování naučeného klasifikátoru na testovacích datech o třetinovém objemu. U tohoto objemu dat nejsou rozdíly pro jednotlivé metody předzpracování výrazné (hodnoty F 1 score okolo 88 %). Obr. 8: Srovnání vlivu předzpracování a objemu textových dat na kvalitu klasifikace v anglickém jazyce Společným jevem pro všechny zkoumané objemy je dosažení téměř nejnižší hodnoty F 1 score při odstranění stopslov (v libovolné kombinaci s dalšími metodami). Z grafu vyplývá, že v rámci jednotlivých objemů nemá žádná z metod předzpracování výrazný pozitivní, ani negativní vliv na kvalitu klasifikace. Jedinou výjimkou je u objemu recenzí výrazněji lepší výsledek pro text bez předzpracování. Doba zpracování Z hlediska doby zpracování dat algoritmem J48 nejkratšího času dosahují data s aplikovanou kombinací všech tří zkoumaných metod předzpracování textu, a to pro všechny analyzované objemy dat. Největší vliv na pokles doby zpracování mělo použití stemmingu ať už samotného, či v kombinaci s ostatními metodami. Výsledky časové náročnosti algoritmu J48 nad anglickými recenzemi znázorňuje graf na obrázku 9, kde je doba předzpracování z důvodu srovnatelnosti normalizována vzhledem k jednotlivým objemům dat.

53 4.1 Klasifikace pomocí rozhodovacího stromu 53 Obr. 9: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí v anglickém jazyce Německý jazyk Kvalita klasifikace U datových souborů s a německými recenzemi mají jednotlivé metody předzpracování na kvalitu klasifikace podobný vliv: oprava pravopisu, stemming a žádné předzpracování dosahují vyšších hodnot F 1 score (nad 84 % pro recenzí), zatímco metody, jež zahrnují odstranění stopslov, kvalitu ovlivňují negativně. U dat o objemu recenzí má výrazně lepší výsledek pouze oprava pravopisu. Obr. 10: Srovnání vlivu předzpracování a objemu textových dat na kvalitu klasifikace v německém jazyce Stejně jako v případě anglického jazyka lze i zde vypozorovat, že čím více recenzí zpracovávaný soubor obsahuje, tím kvalitnější klasifikátor je vytvořen. Doba zpracování Použití různých metod předzpracování textu má na dobu zpracování principiálně stejný dopad jako v případě angličtiny: nejkratší doba pro data předzpracovaná kombinací všech tří metod a nejvýraznější pokles doby při aplikaci stemmingu. Graf porovnávající vliv předzpracování a objemu textových dat na dobu zpracování recenzí v německém jazyce je uveden na obrázku 32 v přílohách.

54 4.1 Klasifikace pomocí rozhodovacího stromu Francouzský jazyk Kvalita klasifikace Graf znázorňující dopad předzpracování a objemu dat na metriku F 1 score v rámci francouzského jazyka se nachází na obrázku 33 v přílohách práce, neboť pro soubory obsahující a recenzí ve francouzštině lze vypozorovat analogické závislosti s výsledky pro anglický jazyk: nepatrné rozdíly mezi jednotlivými metodami předzpracování u největšího objemu dat (hodnoty F 1 score okolo 84 %), kdy nejnižší kvality dosahuje aplikace odstranění stopslov s výjimkou kombinace všech tří zkoumaných metod předzpracování (zde naopak nejvyšší hodnota F 1 score). I v případě francouzského jazyka je patrné, že objem zpracovávaných textových dat má na kvalitu klasifikátoru výrazný dopad. Doba zpracování Vliv aplikace různých metod předzpracování textu na dobu zpracování francouzských recenzí byl opět v zásadě stejný jako u anglického a německého jazyka, tedy značný vliv stemmingu na pokles doby zpracování a minimální čas běhu algoritmu nad daty předzpracovanými kombinací všech tří metod. Z důvodu této opakované analogie byl graf porovnávající vliv předzpracování a objemu textových dat na dobu zpracování recenzí ve francouzském jazyce umístěn do příloh (obrázek 34) Španělský jazyk Kvalita klasifikace Graf na obrázku 11 ukazuje, že vliv aplikace jednotlivých metod předzpracování je pro španělštinu u všech tří objemů stejný: dobré výsledky má kontrola pravopisu, odstranění stopslov a kombinace těchto dvou metod, naproti tomu negativní vliv vykazuje aplikace stemmingu v libovolné kombinaci s dalšími metodami. Opět je vidět, že samotný objem má na kvalitu výrazný vliv (čím více recenzí, tím vyšší hodnota metriky F 1 score). Obr. 11: Srovnání vlivu předzpracování a objemu textových dat na kvalitu klasifikace ve španělském jazyce

55 4.1 Klasifikace pomocí rozhodovacího stromu 55 Doba zpracování Grafické znázornění dopadu předzpracování a objemu dat na časovou náročnost text miningu pro španělský jazyk se nachází v přílohách na obrázku 35, protože opět vykazuje podobné charakteristiky jako grafy u předchozích přirozených jazyků. Pro všechny zpracovávané objemy dat opět platí minimální doba běhu algoritmu při aplikaci všech tří metod předzpracování a významný pokles doby zpracování při použití stemmingu Srovnání výsledků napříč zkoumanými přirozenými jazyky Při klasifikaci pomocí rozhodovacího stromu jsou mezi nejmenším objemem recenzí a objemy a recenzí pozorovány značné rozdíly ve výsledné hodnotě metriky F 1 score. Následující odstavce se věnují srovnání kvality klasifikace a doby zpracování při aplikaci jednotlivých metod předzpracování pro maximální zkoumaný objem dat, který vykazuje nejvyšší kvalitu klasifikace, tedy pro soubory s recenzemi. Kvalita klasifikace Z grafu na obrázku 12 je patrná nejvyšší kvalita klasifikace pro recenze v anglickém jazyce, u nichž není vliv žádné z metod předzpracování výrazně lepší či horší oproti ostatním metodám. Naopak nejnižšího hodnot F 1 score dosahuje španělština. U všech jazyků lze pozorovat negativní vliv odstranění stopslov. Francouzský jazyk jako jediný vykazuje nejvyšší kvalitu klasifikátoru při předzpracování všemi třemi zkoumanými metodami. Obr. 12: Srovnání vlivu předzpracování textových dat na kvalitu klasifikace pro všechny zkoumané jazyky (objem recenzí) Na základě výše uvedeného grafu lze konstatovat, že vliv zkoumaných metod předzpracování textových dat na kvalitu klasifikace pomocí rozhodovacího stromu se pro jednotlivé přirozené jazyky liší. Doba zpracování Na obrázku 13 je uveden graf porovnávající dopad metod předzpracování na dobu běhu algoritmu pro jednotlivé jazyky. Výsledné časy jsou v grafu vyjádřeny v hodinách a pro data o objemu recenzí. Anglický jazyk měl jednoznačně nejkratší dobu zpracování (do 2 hodin), naproti tomu zpracovat

56 4.2 Klasifikace metodou podpůrných vektorů 56 recenze v němčině trvalo nejdéle (bez aplikace předzpracování až 11 hodin). Vliv metod předzpracování na dobu běhu je však pro všechny jazyky stejný nejhorší výsledky pro nepředzpracované recenze, minimální doba zpracování při aplikaci všech tří metod předzpracování a významný pokles doby při použití stemmingu. Obr. 13: Srovnání vlivu předzpracování textových dat na dobu zpracování recenzí ve všech zkoumaných jazycích (objem recenzí) 4.2 Klasifikace metodou podpůrných vektorů V této kapitole jsou prezentovány výsledky pokusů provedených pomocí programu SVMlight. Prostřednictvím klasifikace metodou podpůrných vektorů byly realizovány experimenty pro 3 různé objemy dat s aplikací 4 odlišných metod vážení termů nad 8 kolekcemi různě předzpracovaných textových recenzí ve 4 jazycích. Aby byly prezentované dvourozměrné grafy přehledné (zobrazení vlivu pouze dvou parametrů, např. na ose x metod předzpracování textu a barevně odlišených objemů dat), je zredukován počet výše uvedených možných pohledů na data. Obr. 14: Srovnání vlivu objemu textových dat a metody vážení termů na kvalitu klasifikace pro všechny zkoumané jazyky

57 4.2 Klasifikace metodou podpůrných vektorů 57 Počáteční analýzu získaných výsledků a následnou redukci počtu dimenzí umožnilo využití kontingenčních grafů založených na kontingenčních tabulkách 14 nástroje MS Excel. V případě klasifikace metodou SVM jsem v těchto tabulkách aplikovala funkce pro maximalizaci hodnoty metriky F 1 score a minimalizaci doby běhu algoritmu. Graf na obrázku 14 využívá zmíněnou maximalizační funkci pro srovnání vlivu objemu dat a metody vážení na kvalitu klasifikace pro jednotlivé přirozené jazyky, ale bez ohledu na metody předzpracování. Z grafu vyplývá, že použitím globální váhy IDF se kvalita klasifikace ve většině případů zvyšuje. Proto jsem pro další analýzu v této kapitole zvolila metodu výpočtu váhy termů aplikující tuto globální váhu, konkrétně metodu TF-IDF, u níž je pro objemy a recenzí výsledná kvalita klasifikace vyšší než u TP-IDF (pouze s výjimkou němčiny). Hodnoty časové náročnosti uváděné pro jednotlivé přirozené jazyky jsou opět pro srovnatelnost výsledků mezi různými objemy dat normalizovány do intervalu < 0, 1 >. Tato normalizace je provedena pouze pro jednotlivé objemy, ne však pro různé metody vážení Anglický jazyk Kvalita klasifikace Klasifikace metodou podpůrných vektorů vykazuje u recenzí v angličtině nejvyšší hodnoty metriky F 1 score při zpracování dat o objemu recenzí. I zde je patrný významný vliv objemu dat: čím více recenzí je v datovém souboru, tím je klasifikace kvalitnější. Pro všechny zkoumané objemy platí, že kvalita klasifikace se v závislosti na aplikaci jednotlivých metod předzpracování výrazně nemění (minimální hodnota metriky je dosahována při odstranění stopslov v libovolné kombinaci s ostatními metodami). S aplikovanou metodou výpočtu vah termů TF-IDF se hodnoty metriky F 1 score pro objem recenzí v trénovací množině dat pohybují okolo 93 %. Toto dokládá graf na obrázku 15. Obr. 15: Srovnání vlivu předzpracování a objemu textových dat na kvalitu klasifikace v anglickém jazyce (metoda vážení TF-IDF) 14 Kontingenční tabulka je interaktivní nástroj pro přehledné prezentování dat z rozsáhlých tabulek umožňující filtraci a snadnou definici různých pohledů na data.

58 4.2 Klasifikace metodou podpůrných vektorů 58 Doba zpracování Nejkratší doby zpracování dosahuje pro data o objemu a recenzí s metodou vážení TF-IDF použití kombinace všech tří zkoumaných metod předzpracování textu. U anglických recenzí došlo k prodloužení doby zpracování v případě odstranění stopslov. Jelikož se ale hodnoty pohybují maximálně v řádech desítek sekund (pro recenzí), absolutní rozdíly jsou ve výsledku velmi nepatrné. Časovou náročnost klasifikace metodou podpůrných vektorů nad anglickými recenzemi znázorňuje graf na obrázku 16, kde je doba předzpracování z důvodu srovnatelnosti opět normalizována vzhledem k jednotlivým objemům dat. Obr. 16: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí v anglickém jazyce (metoda vážení TF-IDF) Německý jazyk Kvalita klasifikace Pro vliv metod předzpracování recenzí v němčině na kvalitu klasifikace platí stejné zákonitosti jako u angličtiny: významný pozitivní vliv rostoucího počtu recenzí v souboru na kvalitu klasifikace, nevýrazné rozdíly v dopadu na kvalitu při aplikaci různého předzpracování, kdy minimálních hodnot F 1 score dosahuje metoda odstranění stopslov ať už samotná, nebo aplikovaná s dalšími metodami. Grafické znázornění dopadu předzpracování a objemu dat na kvalitu klasifikace se nachází v přílohách na obrázku 36. Doba zpracování Obrázek 37 v přílohách této práce uvádí graf porovnávající vliv předzpracování a objemu textových dat na dobu zpracování recenzí v německém jazyce. Na časovou náročnost zpracování souboru obsahujícího recenzí v němčině má použití různých metod předzpracování textu podobný vliv jako v případě anglického jazyka, a to pouze s tím rozdílem, že minimální doby zpracování dosahují data s aplikovaným stemmingem Francouzský jazyk Kvalita klasifikace S výjimkou konkrétních hodnot metriky F 1 score platí z hlediska vlivu předzpracování a objemu dat na kvalitu pro francouzštinu to stejné, co pro angličtinu a němčinu. Toto dokládá graf na obrázku 38 v přílohách práce.

59 4.2 Klasifikace metodou podpůrných vektorů 59 Doba zpracování Graf na obrázku 17 ukazuje, že u francouzských recenzí je nejvíce časově náročné zpracování recenzí bez jakéhokoli předzpracování, že výrazný vliv na zkrácení doby má oprava pravopisu a aplikace stemmingu a že použití kombinace všech tří metod předzpracování je oproti ostatním variantám nejméně časově náročná. Obr. 17: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí ve francouzském jazyce (metoda vážení TF-IDF) Španělský jazyk Kvalita klasifikace Graf na obrázku 39 ukazuje, že pro vliv předzpracování na kvalitu klasifikace opět existuje analogie s předchozími přirozenými jazyky. Výjimku zde tvoří fakt, že v případě čtyř metod (bez, prav, stem, prav + stem) je hodnota F 1 score pro objem recenzí vyšší než pro objem recenzí, a druhou odlišností od předchozích jazyků je pozitivní vliv aplikace stemmingu. Doba zpracování Jak je patrné z obrázku 18, v případě španělského jazyka je z hlediska časové náročnosti nejvýhodnější zpracování recenzí, na které byl aplikován stemming. Negativní vliv zde má odstranění stopslov. Obr. 18: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí ve španělském jazyce (metoda vážení TF-IDF)

60 4.2 Klasifikace metodou podpůrných vektorů Srovnání výsledků napříč zkoumanými přirozenými jazyky Kvalita klasifikace metodou podpůrných vektorů je značně ovlivňována objemem zpracovávaných dat, kdy rostoucí počet recenzí v souboru zvyšuje hodnotu F 1 score. Jsou pozorovány značné rozdíly mezi minimálním objemem recenzí a objemy a recenzí. V následujících odstavcích je porovnána kvalita klasifikace a čas běhu algoritmu při aplikaci jednotlivých metod předzpracování pro maximální zkoumaný objem dat, který vykazuje nejvyšší kvalitu klasifikace, tedy pro soubory s recenzemi. Kvalita klasifikace Stejně jako v případě klasifikace pomocí rozhodovacího stromu je i klasifikace metodou podpůrných vektorů nejkvalitnější pro recenze v anglickém jazyce a nejméně kvalitní u recenzí ve španělštině (viz graf na obrázku 19). Pro všechny jazyky platí, že aplikace žádné ze zkoumaných metod předzpracování nemá výrazný pozitivní vliv na kvalitu klasifikace (výjimkou je pouze aplikace stemmingu na španělské recenze). Negativní vliv lze u všech jazyků pozorovat při odstranění stopslov (i v kombinaci s ostatními metodami předzpracování). Obr. 19: Srovnání vlivu předzpracování textových dat na kvalitu klasifikace pro všechny zkoumané jazyky (metoda vážení TF-IDF, objem recenzí) Doba zpracování Na obrázku 20 je uveden graf porovnávající dopad jednotlivých zkoumaných metod předzpracování textu na dobu klasifikace metodou podpůrných vektorů pro jednotlivé jazyky. Prezentované hodnoty času jsou uvedeny v sekundách, pro data s aplikovanou metodou výpočtu váhy termů TF-IDF v souborech o objemu recenzí. Z grafu vyplývá, že metody předzpracování mají v rámci jednotlivých jazyků odlišný vliv na dobu zpracování, ta se však pohybuje pouze v řádech desítek sekund. Jak již bylo zmíněno v kapitole 3.3.4, algoritmus klasifikace metodou podpůrných vektorů je rychlý a efektivní hodnoty doby zpracování recenzí nepřesahují 45 sekund. Výrazněji časově náročnější je zpracování recenzí ve španělském jazyce, rozdíl mezi ostatními jazyky je však malý, činí totiž maximálně 15 sekund pro objem recenzí.

61 4.3 Shlukování 61 Obr. 20: Srovnání vlivu předzpracování textových dat na dobu zpracování recenzí ve všech zkoumaných jazycích (metoda vážení TF-IDF, objem recenzí) 4.3 Shlukování V této kapitole jsou prezentovány výsledky pokusů realizovaných prostřednictvím nástroje Cluto. Metodou shlukovací analýzy byly pro 5 odlišných velikostí shluků provedeny experimenty pro 5 různých objemů dat s aplikací 4 odlišných metod vážení termů nad 8 kolekcemi různě předzpracovaných textových recenzí ve 4 přirozených jazycích. Stejně jako u klasifikace metodou podpůrných vektorů je pro přehlednost prezentace výsledků shlukování třeba zredukovat počet výsledných pohledů na data, kterých je v tomto případě pět. Pro určení kvality shlukování byly sledovány dvě metriky, entropie a čistota. Kritériem pro výběr nejlepších variant v kontingenčním grafu tedy byly dvě funkce: minimalizace hodnoty entropie a zároveň maximalizace metriky čistoty, a to opět bez ohledu na konkrétní metody předzpracování. Obr. 21: Srovnání vlivu metody vážení termů na kvalitu shlukování pro všechny zkoumané jazyky (objem recenzí) Nejprve jsem provedla výběr jedné metody vážení termů, a to na základě grafu na obrázku 21, ze kterého je opět patrný značný pozitivní vliv použití globální váhy

62 4.3 Shlukování 62 IDF. Metody TF-IDF a TP-IDF mají na minimalizaci entropie a současnou maximalizaci čistoty identický vliv, proto jsem pro zachování konzistence s předchozími dvěma algoritmy strojového učení zvolila opět metodu vážení TF-IDF. Mimo tento výběr jedné metody výpočtu váhy termů jsem také provedla výběr jedné velikosti shluků. Z grafu na obrázku 22 je pro všechny zkoumané jazyky možné vyvodit nepatrně větší pozitivní vliv na kvalitu shlukování (minimální hodnota entropie a současně co nejvyšší hodnota čistoty) při použití velikosti shluků o třech instancích ve srovnání s ostatními velikostmi shluků. Pro další analýzu kvality a časové náročnosti shlukování budou tedy hodnoceny výsledky získané při aplikaci metody vážení TF-IDF a velikosti shluků o 3 instancích. Obr. 22: Srovnání vlivu velikosti shluků (2, 3, 5, 10 a 50) na kvalitu shlukování pro všechny zkoumané jazyky Doby shlukování uváděné pro jednotlivé přirozené jazyky jsou opět pro srovnatelnost výsledků mezi různými objemy dat pro vybranou velikost shluků normalizovány do intervalu < 0, 1 >. Tato normalizace je provedena pro jednotlivé objemy a zároveň pro jednotlivé velikosti shluků, ne však pro různé metody vážení. Za účelem přehlednosti grafů hodnotících vliv metod předzpracování na kvalitu shlukování v rámci jednotlivých přirozených jazyků jsem prezentovala výsledky pouze pro tři z pěti zkoumaných objemů textových dat, a to pro recenzí, recenzí a recenzí Anglický jazyk Kvalita shlukování Z grafu na obrázku 23 vyplývá, že různé metody předzpracování, ani odlišné objemy dat s recenzemi v angličtině nemají na hodnotu metriky čistoty výrazný vliv. Naproti tomu metrika entropie vykazuje změny při aplikaci různých metod předzpracování, v některých případech se mění i na základě objemu zpracovávaných dat. Z hlediska minimalizace entropie je nevýhodná oprava pravopisu, která jak samotná, tak i v kombinaci s ostatními metodami zvyšuje hodnoty entropie, což je nežádoucí jev.

63 4.3 Shlukování 63 Obr. 23: Srovnání vlivu předzpracování a vybraných objemů textových dat na kvalitu shlukování v anglickém jazyce (metoda vážení TF-IDF, velikost shluků 3) Doba zpracování Změny časové náročnosti shlukování jsou při aplikaci různých metod předzpracování nepatrné, v grafu na obrázku 24 lze však pozorovat mírný negativní dopad opravy pravopisu, stemmingu a jejich kombinace na dobu zpracování. Obr. 24: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí v anglickém jazyce (metoda vážení TF-IDF, velikost shluků 3) Německý jazyk Kvalita shlukování Porovnání vlivu jednotlivých metod předzpracování a objemu dat na kvalitu shlukování recenzí v němčině je uvedeno v grafu na obrázku 25. Z tohoto grafu lze vypozorovat závislost kvality shlukování na objemu zpracovávaných dat s rostoucím počtem recenzí v souboru klesá hodnota entropie a zároveň roste hodnota čistoty. Z hlediska metod předzpracování nejnižších hodnot entropie dosahují recenze bez předzpracování a největší negativní dopad na tuto metriku má oprava pravopisu ve spojení se stemmingem. Jednotlivé metody předzpracování

64 4.3 Shlukování 64 nemají na hodnotu čistoty výrazný vliv. Mírný pokles této hodnoty lze pozorovat u metody odstranění stopslov a její kombinace s dalšími metodami. Obr. 25: Srovnání vlivu předzpracování a vybraných objemů textových dat na kvalitu shlukování v německém jazyce (metoda vážení TF-IDF, velikost shluků 3) Doba zpracování V grafu na obrázku 26 je patrný pozitivní vliv jednotlivých metod předzpracování německých recenzí na dobu zpracování nejkratší doby shlukování dosahuje pro všechny zkoumané objemy dat kombinace všech tří metod předzpracování textu. Obr. 26: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí v německém jazyce (metoda vážení TF-IDF, velikost shluků 3) Francouzský jazyk Kvalita shlukování Stejně jako v případě německého jazyka je i u francouzských recenzí pozorovatelný vliv jednotlivých zpracovávaných objemů na kvalitu (viz obrázek 27) čím více recenzí zpracovávaný soubor obsahuje, tím je hodnota entropie nižší a zároveň hodnota čistoty vyšší. Na obě metriky kvality má pozitivní vliv aplikace stemmingu.

65 4.3 Shlukování 65 Obr. 27: Srovnání vlivu předzpracování a vybraných objemů textových dat na kvalitu shlukování ve francouzském jazyce (metoda vážení TF-IDF, velikost shluků 3) Doba zpracování Grafické znázornění dopadu předzpracování a objemu dat na časovou náročnost text miningu pro francouzštinu se nachází v přílohách na obrázku 40, neboť vykazuje podobné charakteristiky jako graf pro němčinu. Nejkratší doba je i u zde dosažena při aplikaci všech tří metod předzpracování Španělský jazyk Kvalita shlukování V grafu na obrázku 28 lze stejně jako u německého a francouzského jazyka pozorovat vliv objemu zpracovávaných dat na kvalitu. S vyšším objemem roste hodnota čistoty a klesá hodnota entropie. Nejvyšší kvality shlukování je dosaženo aplikací kombinace všech tří metod předzpracování na recenzí. Obr. 28: Srovnání vlivu předzpracování a vybraných objemů textových dat na kvalitu shlukování ve španělském jazyce (metoda vážení TF-IDF, velikost shluků 3)

66 4.3 Shlukování 66 Doba zpracování V případě španělštiny jsou změny časové náročnosti shlukování způsobené vlivem aplikaci různých metod předzpracování nepatrné. Graf na obrázku 41 uvádí, že nejkratší doba shlukování recenzí ve španělštině je dosažena použitím všech tří metod předzpracování textu Srovnání výsledků napříč zkoumanými přirozenými jazyky Následující odstavce se věnují srovnání kvality shlukování (z hlediska jak entropie, tak čistoty) a doby běhu algoritmu při aplikaci jednotlivých metod předzpracování u každého ze zkoumaných přirozených jazyků, a to pro maximální zkoumaný objem dat ( recenzí), pro nějž je stejně jako v případě klasifikace rozhodovacím stromem i metodou podpůrných vektorů dosahováno nejvyšší kvality text miningu. Kvalita shlukování entropie Z grafu na obrázku 29 je patrné, že u všech jazyků má na hodnotu entropie výrazný negativní vliv oprava pravopisu. K výraznějšímu snížení hodnoty entropie oproti variantě bez předzpracování došlo pouze při aplikaci kombinace stemmingu a odstranění stopslov na recenze v anglickém jazyce, dále v případě použití stemmingu na francouzské recenze a také v rámci španělštiny kombinací všech tří metod předzpracování textu. Pro recenze v německém jazyce je z hlediska metriky entropie nejvýhodnější ke shlukování využít data bez jakéhokoli předzpracování. Obr. 29: Srovnání vlivu předzpracování textových dat na hodnotu entropie shlukování pro všechny zkoumané jazyky (metoda vážení TF-IDF, objem recenzí, velikost shluků 3) Kvalita shlukování čistota Z grafu na obrázku 30 je patrné, že pro angličtinu a němčinu platí podobné zákonitosti změn metriky čistoty při aplikaci různých metod předzpracování: pozitivní dopad oproti variantě bez předzpracování při opravě pravopisu a výraznější negativní dopad odstranění stopslov a stemmingu (zejména pak jejich kombinace pro německý jazyk). Angličtina má stabilní výsledky pro různé typy předpracování textu, oproti tomu němčina se vyznačuje velmi kolísavými změnami metriky čistoty. U francouzštiny a španělštiny lze vypozorovat pozitivní vliv aplikace stemmingu a negativní vliv odstranění stopslov. Pro oba tyto dva jazyky dosahuje hodnota

67 4.3 Shlukování 67 čistoty při aplikaci všech tří metod předzpracování vyšší hodnoty než pro variantu bez jakéhokoli předzpracování. Obr. 30: Srovnání vlivu předzpracování textových dat na hodnotu čistoty shlukování pro všechny zkoumané jazyky (metoda vážení TF-IDF, objem recenzí, velikost shluků 3) Doba zpracování Na obrázku 31 se nachází graf srovnávající dopad jednotlivých metod předzpracování textu na dobu běhu shlukovacího algoritmu pro zkoumané jazyky. Graf zjištěné hodnoty času vždy uvádí v sekundách, pro data s aplikovanou metodou výpočtu váhy termů TF-IDF v souboru o objemu recenzí a pro shluky obsahující 3 instance. Z grafu je patrný odlišný vliv metod předzpracování na dobu zpracování v rámci jednotlivých jazyků, společná pro ně je ale minimální doba běhu algoritmu nad daty předzpracovanými všemi zkoumanými metodami. Tato výsledná doba se pro daný objem a pro shluky o třech instancích pohybuje pouze v řádu jednotek, maximálně desítek sekund (v případě shluků o velikosti 50 instancí se jedná o jednotky minut). Tento algoritmus je s použitým nastavením ještě rychlejší než klasifikace metodou podpůrných vektorů. Obr. 31: Srovnání vlivu předzpracování textových dat na dobu zpracování recenzí ve všech zkoumaných jazycích (metoda vážení TF-IDF, objem recenzí, velikost shluků 3)

68 5 DISKUZE 68 5 Diskuze Tato kapitola shrnuje nejdůležitější poznatky, které jsou výstupem analýzy výsledků provedených experimentů, jež jsou uvedeny v předchozí kapitole. Ve zjištěných a prezentovaných výsledcích lze pozorovat určité vzory, pro které však existují různé odchylky. Zejména v případě menších objemů zpracovávaných dat byly výsledky kvality text miningu nestabilní (například na obrázku 10 pozorovatelný pozitivní vliv metody odstranění stopslov oproti variantě bez předzpracování pro objem recenzí navzdory negativnímu vlivu této techniky platnému pro větší zkoumané objemy). Zde se budeme však soustředit na zjištěné vzory a pravidelnosti, které jsou platné pro většinu experimentů. Vliv metody výpočtu váhy termů Z hlediska metody výpočtu váhy termů mělo použití globální váhy IDF značný pozitivní dopad na kvalitu dolování znalostí všemi zkoumanými algoritmy strojového učení, pro všechny přirozené jazyky i pro veškeré objemy dat. Nevýhodou použití této globální váhy je však vyšší náročnost na převod textu do vektorové reprezentace a také vyšší prostorová náročnost souborů vzniklých touto transformací oproti variantě bez použití globální váhy IDF. Metody vážení TF-IDF a TP-IDF vykazují stejné výsledky, co se týče kvality i časové náročnosti text miningu. Tento fakt je způsoben vysokým počtem termů ve slovníku a zároveň nízkým počtem slov v jednotlivých recenzích výslednými hodnotami obou lokálních vah (přítomnost termu a frekvence termu) jsou téměř výhradně hodnoty 0 a 1, v případě váhy TF velmi zřídka 2. Oba výsledné soubory s vektorovou reprezentací jsou tedy velmi podobné. Vliv velikosti objemu zpracovávaných dat Provedené experimenty také prokázaly, že s klesajícím počtem recenzí ve zpracovávaném souboru klesá také kvalita dolování znalostí z textových dat. Tento významný vliv objemu dat na kvalitu byl pozorován v rámci všech čtyř zkoumaných přirozených jazyků pro metriku F 1 score jak u rozhodovacího stromu, tak u podpůrných vektorů, a také pro metriky entropie a čistoty sledovaných v rámci shlukovací analýzy (pouze s výjimkou anglického jazyka obrázek 23). Pro zpracování velkého objemu dat, který zajistí zvýšení kvality text miningu, existuje však zřejmá nevýhoda, a to zvýšení časové a prostorové náročnosti jak předzpracování a následné transformace textu do vektorové reprezentace, tak samotného dolování znalostí z těchto dat. Například pro časově náročný algoritmus J48 softwarového nástroje Weka se jednalo o velké investice z hlediska doby jeho běhu a paměťové náročnosti, kdy byla danému procesu dedikována veškerá dostupná operační paměť a zpracování recenzí bylo dokončeno v řádu hodin. Tuto výpočetní náročnost je však možné výrazně snížit aplikaci jednotlivých technik předzpracování textu (viz obrázek 13).

69 5 DISKUZE 69 Vliv techniky předzpracování dat Z hlediska kvality text miningu se dopad různého předpracování textu liší jak pro jednotlivé jazyky, tak i pro jednotlivé algoritmy strojového učení. V některých případech předzpracování kvalitu dolování snižuje, v některých naopak zvyšuje. Obecně lze ale říci, že ve většině případů nemá žádná z metod dramatický vliv na kvalitu rozdíly v hodnotách F 1 score, resp. entropie a čistoty, pro různé techniky předzpracování nejsou výrazné. Podle mého názoru je výše uvedená nejednotnost vlivu metod předzpracování do vysoké míry určena rozdíly v kvalitě implementace těchto metod pro jednotlivé jazyky. Na základě výsledků lze říci, že z pohledu časové náročnosti má aplikace metod předzpracování pozitivní vliv. Ve většině případů je aplikace všech tří zkoumaných technik předzpracování nejvýhodnější variantou, naopak dolování z dat bez předzpracování trvá nejdéle. Největší vliv na pokles doby běhu algoritmů lze často pozorovat při aplikaci stemmingu a jeho kombinace s ostatními metodami. Použití stemmingu je dle mého názoru výhodné nedochází k výraznému poklesu kvality, ale časová náročnost může být dramaticky snížena. Další výhodou je krátká doba aplikace této metody na textová data. Vliv přirozeného jazyka Z hlediska jednotlivých jazyků je z výsledků klasifikačních algoritmů patrné, že bez ohledu na typ předzpracování je maximální hodnoty F 1 score dosahováno u recenzí v anglickém jazyce, zatímco minimální hodnotu této metriky vykazují španělské recenze. Anglický jazyk byl nejlepší i z hlediska doby běhu algoritmu J48. Na těchto odlišnostech ve výsledcích pravděpodobně nesou podíl charakteristiky jednotlivých přirozených jazyků, například to, zda používají diakritická znaménka, nebo zda je daný jazyk flektivní. Platnost obou zmíněných možností zvyšuje pravděpodobnost zavedení dalších unikátních termů do slovníku, v němž se již mohou nacházet slova s identickým významem (například německé výrazy Fruehstueck a Frühstück pro snídani). Možná vylepšení Kvalita i časová náročnost by mohla být pozitivně ovlivněna například odstraněním diakritických znamének z textových dat před jejich převodem do vektorové reprezentace, výběrem trénovacích množin dat pro klasifikaci náhodným způsobem či použitím krosvalidace a také změnou různých parametrů v používaných softwarových nástrojích. Na výslednou kvalitu text miningu má zásadní vliv úroveň kvality samotného předzpracování. Například v případě metody odstranění stopslov je samotný seznam definující stopslova klíčovým prvkem určujícím kvalitu této metody. Shrnutí Aplikaci metody předzpracování je nutné zvážit vzhledem k času investovanému do jejího provedení a vzhledem ke zvýšení kvality či snížení doby zpracování způsobené aplikací dané metody. Podle mého názoru byla v případě recenzí kontrola a oprava pravopisu zbytečná, neboť nebyl pozorován její významný pozitivní vliv

70 5 DISKUZE 70 na kvalitu ani dobu trvání text miningu a zároveň byla její aplikace na textová data časově velmi náročná. Naopak stemming se jeví jako vhodná metoda předzpracování pro zkoumaný typ dat. Doporučením vyplývajícím z této práce by mohlo být: použití globální váhy IDF, dolování z co nejobjemnějších dat a aplikace stemmingu, techniky předzpracování nenáročné na dobu provedení. V případě shlukování přímou metodou s využitím kriteriální funkce H2 a kosinové podobnosti se jevila velikost shluků o třech instancích jako nejlepší. Tato práce zkoumá vliv předzpracování pouze u hotelových recenzí. Otázkou zůstává, zda je možné zjištěné poznatky zobecnit i pro jiné domény s podobnými charakteristikami (krátké uživatelské recenze). Toto může být předmětem dalšího zkoumání.

71 6 ZÁVĚR 71 6 Závěr Tato práce se věnuje problematice předzpracování nestrukturovaných textových dat v souvislosti s text miningem. Cílem práce bylo prostřednictvím navržených experimentů aplikovat různé techniky předzpracování textu, následně provést dolování znalostí z těchto různě předzpracovaných dat a analýzou dosažených výsledků zhodnotit vliv jednotlivých metod předzpracování a jejich kombinací na kvalitu a náročnost dolování provedeného pomocí vybraných metod klasifikace a shlukování. Úvodní část práce čtenáři přibližuje problematiku dolování znalostí z dat, zejména oblast dolování znalostí z textových dat, a seznamuje jej s vybranými algoritmy strojového učení a se zvolenými technikami předzpracování textu, to vše na základě poznatků získaných z odborné literatury. Pozornost byla následně věnována metodice vlastní práce, která popisuje jak použitá textová data a jednotlivé zkoumané přirozené jazyky, tak využitý software a hardware. Důležitým tématem této části je také samotný průběh navržených experimentů. Daná metodika byla zvolena s ohledem na dostupné hardwarové vybavení, na možnosti a výpočetní náročnost vybraných algoritmů používaných v softwarových nástrojích a na omezený rozsah diplomové práce. Použitými textovými daty jsou kolekce krátkých uživatelských recenzí v anglickém, německém, francouzském a španělském jazyce, které se týkají spokojenosti zákazníků s ubytováním v hotelech. Z důvodu snížení dimenzionality problému byly na tyto recenze aplikovány tři různé techniky předzpracování textu: kontrola a oprava pravopisu, odstranění stopslov a stemming. Středem zájmu nebyly pouze tyto tři techniky samotné, ale také jejich kombinace a i originální text bez předzpracování. Výsledkem fáze předzpracování tedy bylo osm sad textových dokumentů obsahujících recenzí pro každý jazyk. Po dokončení fáze předzpracování následoval převod nestrukturovaných textových dat do strukturované, vektorové podoby, kterou je možné zpracovat zvolenými nástroji dolování znalostí z dat. Po tomto převodu přišlo již na řadu samotné dolování, a to pomocí nástrojů Weka, SVMlight a Cluto. Celkem bylo provedeno experimentů (96 metodou klasifikace rozhodovacím stromem, 384 pomocí klasifikace podpůrnými vektory a prostřednictvím shlukovací analýzy). Výsledky dosažené provedením těchto experimentů prezentuje kapitola 4, nejdůležitější poznatky jsou pak diskutovány v kapitole 5, která se také pokouší zjištěné pravidelnosti dát do souvislostí a zdůvodnit jejich existenci. Bylo zjištěno, že jednotlivé techniky předzpracování nemají na kvalitu text miningu výrazný vliv, často však vlivem jejich aplikace došlo ke snížení časové náročnosti dolování. Z hlediska kvality text miningu byl pozorován jednoznačný pozitivní vliv rostoucího objemu zpracovávaných dat a použití globální váhy IDF. Na základě výše uvedeného lze konstatovat, že stanovený cíl práce byl naplněn. Budoucí výzkum v této oblasti může zkoumat platnost zjištění uvedených v diskuzi z hlediska jiné domény či odlišných přirozených jazyků z různých jazykových rodin.

72 7 LITERATURA 72 7 Literatura Aggarwal, C., Reddy, C. K. Data Clustering: Algorithms and Applications. 2013, 622 s. ISBN Barto, A. G. Reinforcement Learning: An Introduction. London: MIT Press, 1998, 322 s. ISBN Berkhin, P. A Survey of Clustering Data Mining Techniques. Grouping Multidimensional Data. Berlin/Heidelberg: Springer-Verlag, 2006, 25 s. DOI: / Cortes, C., Vapnik, V. N. Support-Vector Networks. Machine Learning. 20, 3, 1995, s DOI: /A: Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. From Data Mining to Knowledge Discovery in Databases. In: AI Magazine. Vol , s Feldman, R., Sanger, J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press, 2007, xii, 410 s. ISBN Geissler, R., Sanchez, A. Francouzská gramatika: základní přehled. Brno: Computer Press, 2007, 136 s. Jazyky (Computer Press). ISBN Gu, Q., Zhu, L., Cai, Z. Evaluation Measures of the Classification Performance of Imbalanced Data Sets. ISICA 2009, 51, 2009, s DOI: / Han, J., Kamber, M., Pei, J. Data Mining: Concepts and Techniques. 3rd ed. Waltham: Morgan Kaufmann, 2012, 703 s. ISBN Hotho, A., Nürnberger, A., Paaß, G. A Brief Survey of Text Mining. In: Ldv Forum. Vol. 20. No , 37 s. Chen, G., Pham, T. T. Introduction to Fuzzy Sets, Fuzzy Logic, and Fuzzy Control Systems. Boca Raton, FL: CRC Press, 2001, 316 s. ISBN Joachims, T. Learning To Classify Text Using Support Vector Machines. Boston: Kluwer Academic Publishers, 2002, 205 s. ISBN X. Joachims, T. Making large-scale SVM Learning Practical. In: Advances in Kernel Methods Support Vector Learning. MIT-Press, 1999, 386 s. ISBN Justová, H. Němčina v kostce: Gramatika. 1. vyd. Havlíčkův Brod: Fragment, 2007, 120 s. V kostce (Fragment). ISBN Kao, A., Poteet, S. R. Natural Language Processing and Text Mining. London: Springer, 2007, xii, 2001, 265 s. ISBN X.

73 7 LITERATURA 73 Karypis, G. Cluto A Clustering Toolkit. University of Minnesota. 2003, 71 s. Dostupné z: Macíková, O., Mlýnková, L. Velká španělská gramatika: vše, co jste kdy chtěli vědět o španělské gramatice, a nikde jste to nenašli. Brno: Computer Press, 2010, 326 s. Jazyky (Computer Press). ISBN Miner, G. et al. Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. 1st ed. Waltham, MA: Academic Press, 2012, 1053 s. ISSN Minsky, M. L. Semantic Information Processing. Cambridge, Mass: MIT Press, 1968, 448 s. ISSN Mitchell, T. M. Machine Learning. Boston: McGraw-Hill, 1997, 432 s. ISBN Nedjah, N. et al. Intelligent Text Categorization and Clustering. 1st ed. Berlin: Springer, 2009, xiii, 117 s. ISBN Nikolopoulos, C. Expert Systems: Introduction to First and Second Generation and Hybrid Knowledge Based Systems. New York: Marcel Dekker, ISBN Ošmera, P. Evoluční algoritmy a jejich aplikace. Praha: České vysoké učení technické, ISBN Pazienza, M. T. Information Extraction in the Web Era: Natural Language Communication for Knowledge Acquisition and Intelligent Information Agents. New York: Springer-Verlag, 2003, ix, 162 s. Lecture notes in computer science, ISBN Quinlan, J. R. C4.5: Programs for Machine Learning. San Mateo, California: Morgan Kaufmann Publishers, 1992, x, 302 s. ISBN Rokach, L., Maimon, O. Data Mining with Decision Trees: Theory and Applications. Hackensack, NJ: World Scientific, 2008, xviii, 244 s. ISBN Řezníček, P., Dařena, F. Předzpracování nestrukturovaných dat pomocí jazyka Snowball. In PEFnet vyd. Brno: MENDELU Publishing centre, 2013, s ISBN Sebastiani, F. Machine Learning in Automated Text categorization. ACM Computing Surveys. New York: Association for Computing Machinery, 2002, v. 1, s ISSN Semrád, P., Dařena, F. Automatická oprava textu v různých jazycích. In PEFnet vyd. Brno: MENDELU Publishing centre, 2013, s ISBN

74 7 LITERATURA 74 Shmueli, G., Patel, N. R., Bruce, P. C. Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner. Hoboken, N.J.: Wiley, 2010, 404 s. ISBN Skalská, H. Data mining a klasifikační modely. Vyd. 1. Hradec Králové: Gaudeamus, 2010, 153 s. ISBN Skillicorn, D. B. Understanding High-Dimensional Spaces. New York: Springer, 2012, ix, 120 s. SpringerBriefs in computer science. ISBN Soman, K. P., Loganathan, R. Machine Learning with SVM and Other Kernel Methods. PHI Learning Pvt. Ltd., 2009, 486 s. ISBN Šíma, J. Teoretické otázky neuronových sítí. Vyd. 1. Praha: MATFYZ press, 1996, 389 s. ISBN Turney, P. D., Pantel, P. From Frequency to Meaning: Vector Space Models of Semantics. Journal of Artificial Intelligence Research. Canada: AAAI Press, 2010, v. 37, s ISSN Vapnik, V. N. Statistical Learning Theory. New York: Wiley, 1998, xxiv, 736 s. ISBN Walther, L. Angličtina: Kompletní gramatika. 1. vyd. Praha: Grada, 2012, 303 s. ISBN Weiss, S. M., Indurkhya, N., Zhang, T., Damerau, F. J. Text Mining: Predictive Methods for Analyzing Unstructured Information. Yorktown Heights: Springer, 2010, 237 s. ISBN Witten, I. H., Bray, Z., Mahoui, M. Text Mining: A New Frontier for Lossless Compression. In: Data Compression Conference. Snowbird, Utah: IEEE Computer Soc. Press, 1999, s ISSN DOI: /DCC Witten, I. H., Frank, E., Hall, M. A. Data Mining: Practical Machine Learning Tools and Techniques. 3rd ed. Burlington: Morgan Kaufmann, 2011, 629 s. Morgan Kaufman series in data management systems. ISBN Wu, J. Advances in K-means Clustering: A Data Mining Thinking. Berlin: Springer, ISBN Wu, W., Xiong, H., Shekhar, S. Clustering and Information Retrieval. Norwell, Mass.: Kluwer Academic Publishers, 2004, viii, 329 s. ISBN Zhang, W. State-Space Search: Algorithms, Complexity, Extensions, and ApplicationsStatistical Learning Theory. New York: Springer, 1999, xvi, 201 s. ISBN

75 7 LITERATURA 75 Zhao, Y., Karypis, G. Criterion Functions for Document Clustering: Experiments and Analysis. Minneapolis, 2002, 30 s. Zhu, X., Goldberg, A. B. Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning). Morgan and Claypool Publishers, 2009, 130 s. ISBN Žižka, J., Dařena, F., Burda, K. Clustering a Very Large Number of Textual Unstructured Customers Reviews in English. Lecture Notes in Computer Science v. 7557, no. 1, s ISSN Žižka, J., Dařena, F. Automatic Sentiment Analysis Using the Textual Pattern Content Similarity in Natural Language. Lecture Notes in Artificial Intelligence, 2010, sv. 6231, č. 1, s ISSN Žižka, J., Dařena, F. Discovering Opinions from Customers Unstructured Textual Reviews Written in Different Natural Languages. In: E-marketing in developed and developing countries: Emerging Practices. 1. publ. 1. Hershey, PA 17033, USA: IGI Global, 2013, s ISBN Žižka, J., Dařena, F. Mining Significant Words from Customer Opinions Written in Different Natural Languages. Lecture Notes in Artificial Intelligence, 2011, sv. 6836, s ISSN

76 Přílohy

77 A VÝSLEDKY EXPERIMENTŮ PROVÁDĚNÝCH V PROGRAMU WEKA 77 A Výsledky experimentů prováděných v programu Weka Obr. 32: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí v německém jazyce Obr. 33: Srovnání vlivu předzpracování a objemu textových dat na kvalitu klasifikace ve francouzském jazyce

78 A VÝSLEDKY EXPERIMENTŮ PROVÁDĚNÝCH V PROGRAMU WEKA 78 Obr. 34: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí ve francouzském jazyce Obr. 35: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí ve španělském jazyce

79 B VÝSLEDKY EXPERIMENTŮ PROVÁDĚNÝCH V PROGRAMU SVMLIGHT 79 B Výsledky experimentů prováděných v programu SVMlight Obr. 36: Srovnání vlivu předzpracování a objemu textových dat na kvalitu klasifikace v německém jazyce (metoda vážení TF-IDF) Obr. 37: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí v německém jazyce (metoda vážení TF-IDF)

80 B VÝSLEDKY EXPERIMENTŮ PROVÁDĚNÝCH V PROGRAMU SVMLIGHT 80 Obr. 38: Srovnání vlivu předzpracování a objemu textových dat na kvalitu klasifikace ve francouzském jazyce (metoda vážení TF-IDF) Obr. 39: Srovnání vlivu předzpracování a objemu textových dat na kvalitu klasifikace ve španělském jazyce (metoda vážení TF-IDF)

81 C VÝSLEDKY EXPERIMENTŮ PROVÁDĚNÝCH V PROGRAMU CLUTO 81 C Výsledky experimentů prováděných v programu Cluto Obr. 40: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí ve francouzském jazyce (metoda vážení TF-IDF, velikost shluků 3) Obr. 41: Srovnání vlivu předzpracování a objemu textových dat na dobu zpracování recenzí ve španělském jazyce (metoda vážení TF-IDF, velikost shluků 3)

Zobrazit více