Natalya Chernykh. Bakalářská práce

Transkript

1 Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze Natalya Chernykh Analýza textu (text mining) pomocí vybraného softwaru Bakalářská práce 2012

2 Poděkování Ráda bych věnovala poděkování Ing. Stanislavě Hruškové Ph.D, za podporu a trpělivost při psaní této bakalářské práce. Stránka 1

3 Prohlašuji, že jsem bakalářskou práci na téma Analýza textu (text mining) pomocí vybraného softwaru zpracovala samostatně a použila pouze zdrojů, které cituji a uvádím v seznamu použité literatury. V Praze dne Podpis Stránka 2

4 Obsah: 1. Úvod: Teoretická část Podstata text miningu Využití- uplatnění Fáze textové analýzy: Předzpracování dat (preprocessing) Analýza textu Extrakce výsledek Praktická část Předpokládaný postup Postup analýzy textu Vyhledání a sběr podkladů Kritéria pro výběr software Výběr vhodného softwaru pro analýzu textu Použitý hardware a software Předpříprava analyzovaného vzorku Textová analýza Zpracování zadané úlohy Závěr Seznam citací: Seznam použité literatury a internetových zdrojů: Seznam příloh Stránka 3

5 Abstrakt: Cílem práce je analyzovat vybraným softwarem 100 posudků bakalářských prací a pomocí textové analýzy odhalit nejčastější chyby studentů, které jsou v posudcích zmiňovány oponenty. Bakalářská práce v teoretické části popisuje podstatu text miningu a jeho využití v praxi. Dále je zde popsán a vysvětlen samotný proces text miningu, jeho fáze a metody. V praktické části jsou uvedeny dostupné nástroje pro analýzu textu a použitý hardware a software. Samotný průběh všech fází textové analýzy pomocí vybraného softwarového nástroje Statistica 10 je podrobně popsán a doplněn obrázky z grafického rozhraní programu a výsledky jsou srovnány s výsledky manuální analýzy. V závěru jsou shrnuty a zhodnoceny veškeré poznatky, které je možné vyvodit z výsledků analýzy softwarem a uvedeno, jaké výhody a nevýhody přináší text miningu v návaznosti na výsledek práce. Klíčová slova: text mining, textová analýza, vyhledávání informací, extrakce informací, chyby Abstract: The aim of this thesis is to analyze by selected software 100 opinions bachelor theses using text analysis software to detect the most common mistakes of students mentioned in opponents checks. Theoretical part of bachelor thesis describes the essence of text mining and its application in practice. Furthermore, there is explained and described text mining process itself, and the phases of this method. In the practical part of thesis describes available tools for text analysis and HW/SW equipment used for analysis The progress of all phases of text analysis using software tool Statistica 10 is described in detail and accompanied by screenshots from the graphical interface. Statistica 10 results are compared with the results of manual analysis. In conclusion are summarized and evaluated all the information that can be deduced from the results of the analysis software and shown the advantages and disadvantages that bringing text mining following the outcome of the work. Stránka 4

6 Úvod: Analýza textu (text mining) pomocí vybraného softwaru V současné době, kdy drtivá většina dokumentů vzniká v elektronickém formátu, nabývají stále více na významu dovednosti a znalosti Business inteligence, mezi které patří i metody text miningu a data miningu. Právě text miningem a jeho konkrétním praktickým využitím se budu ve své práci zbývat. Téma analýza textu pomocí vybraného softwaru jsem zvolila z důvodu, že mě vždy zajímalo, zda je dostupný komplexní software, který by uměl analyzovat nejen samostatný textový soubor, ale i rozsáhlý vzorek textových souborů za účelem vyhledání nejčastěji se vyskytujících slov a slovních spojení, včetně synonym. Přínosná by byla i funkce obsahové analýzy, která poskytuje rychlý přehled o obsahu textového dokumentu bez nutnosti jej číst. Konkrétní zaměření, tedy předmět analýzy (100 posudků bakalářských prací), jsem zvolila proto, že je toto téma v souvislosti s bakalářskými pracemi vždy aktuální a často diskutované a správná interpretace analýzy bude zajisté přínosná nejen pro případné čtenáře této práce, ale bude mít nezanedbatelný vliv i na vlastní kvalitu vypracování bakalářské práce. Za cíl práce jsem si stanovila analýzu 100 posudků bakalářských prací vybraným text miningovým softwarem za účelem nalézt nejčastější chyby studentů při vypracovávání BP, respektive jaké chyby nejčastěji uvádějí vedoucí bakalářských prací. Tyto chyby budu následně systematizovat, přiřazovat k vyhledaným výrazům a slovním spojením synonyma a v závěru bude výstup komplexně statisticky popsán a výsledky zhodnoceny a shrnuty. Postup při řešení bakalářské práce bude chronologický. Po teoretickém zmapování problematiky, kde budou popsány principy text miningu, bude nalezen vhodný software pro analýzu vybraného vzorku posudků bakalářských prací. Kritéria na software budou stanovena tak, aby byl použitelný pro širokou skupinu uživatelů, měl by podporovat českou znakovou sadu, umět pracovat se synonymy a vyhledávat v textu pomocí různých metod. Další vedlejší kritéria budou specifikována v praktické části. V praktické části je rizikem, že nenajdu dostatečně vhodný software, který by splňoval všechny výše uvedené požadavky. Nicméně s touto alternativou počítám, a v případě, že software nebude dostatečně schopný obsáhnout všechny uvedené funkce, použiji pravděpodobně časově velmi náročné manuální statistické zpracování dat za použití standardního kancelářského softwaru (MS Excel). Manuální zpracování však bude následovat i po úspěšném použití softwaru, neboť je nutné pravdivost výsledků ověřit. Stránka 5

7 Teoretická část. 2.1 Podstata text miningu Spolu s masivní elektronizací dokumentů ve všech sférách lidských činností začalo v letech nedávno minulých docházet k masivnímu nárůstu množství dat uložených v elektronické podobě. Přibližně 80 procent dat uložených v nejrůznějších databázích má podobu textu, je tedy v podobě nestrukturovaných dat.[36] Všechny tyto data jsou výsledkem práce webových vyhledávačů, blogů, různých anket, výzkumů, reakcí zákazníků, softwarových nástrojů, tedy jsou produktem jak přímé lidské činnosti, tak také činnosti různých robotů a strojů, kteří generují v reálném čase velké množství textových dat. Například internetové vyhledávače jako nebo vygenerují denně tolik informací, že by z nich bylo možno sestavit několik milionů knih. Dalším příkladem může být počet ů. Odhaduje se, že počet ů, který projde denně všemi typy počítačových sítí je 62 miliard. [18] To jsou stovky gigabajtů textu. Informace obsažené obecně v těchto, tedy nejen rozesílaných, dokumentech, by se přitom daly vyjádřit mnohem stručněji, protože klíčová informace, kterou tyto dokumenty nesou je podstatně menší. Přečíst a manuálně provést analýzu tak obrovského kvanta dat je nemožné, avšak tyto textové informace v sobě obsahují zpravidla údaje, jejichž využití pomůže získat komplexní obraz o daném bodu zájmu a zvýšit v tomto směru také efektivitu rozhodování. Pro uživatele je proto nezbytné, aby ve všech nestrukturovaných textových informacích uložených na svých serverech neztratily přehled, průběžně je systematizovaly a samozřejmě také vytěžili prospěch z včasného získání dalších informací analýzou stávajících dat. Právě zde nastupuje na scénu text mining. Text mining je metoda, která umí nestrukturovaná textová data zpracovat a poskytne nám stěžejní informaci obsaženou v textu dokumentu, setřídí dokumenty podle podobnosti bez toho, aby je musel někdo číst. Celý tento automatický proces bez potřeby lidských zdrojů je v současné době velmi žádoucí. [36] Historie metody text miningu je poměrně krátká a logicky souvisí se samotnou existencí dat v digitální formě. Přibližně před čtyřiceti lety inženýři začali hledat způsob, jak propojit sbírky textových dokumentů pomocí počítačových technologií [17]. Položili tak základy vědecké disciplíně, která je známa jako počítačová lingvistika a je v současné době populární na mnohých univerzitách a různých výzkumných ústavech celého světa. Původně byla počítačová lingvistka čistě nekomerčně zaměřená na hledání Stránka 6

8 způsobů, jak roztřídit a prozkoumat obsah nejrůznějších textových dokumentů (odborné knihy a časopisy, soudní záznamy, noviny, reporty, patenty), které mohou být převedeny do elektronické podoby. V současné době je tento vědecký obor základním zdrojem informací a metod pro text mining, jako souhrnné označení systému dolování informací v digitální textové formě, které se skládá ze složitých lingvistických metod a kompletní sady nástrojů pokročilé analytiky a statistiky. Text mining se stal nejrozšířenější technologií při řešení úloh reálného světa, počínaje analýzou malých záznamů až k organizaci inteligentního vyhledávání a interpretaci tržních zpráv. Obor text miningu obecně spadá pod soubor data miningových metod, kde vznikl jako další odvětví data miningu, pokrývající požadavky po zpracování textů za souběžného vyhledání informací v nich obsažených. Důvodem separace text mining od data miningu je především skutečnost, že data mining má obecnější záběr, vyhledává a zpracovává informace i v číslech, nominálních a ordinárních proměnných, naopak text mining se specializuje výhradně na práci s nestrukturovaným textem. [30] [36] Formálněji by se text mining dal definovat následujícím způsobem. Text mining (textová analýza) nebo někdy může být alternativně nazýván data miningem je metoda netriviální automatické extrakce skryté, implicitní, předem neznámé a potenciálně užitečné a důležité informace z velkého množství nestrukturovaných" a částečně strukturovaných textových dat pomocí kombinaci strojového učení, pokročilých statistických analýz, různých algoritmu, identifikace jádrových konceptů, postojů a trendů a následného použití této informace [30]. Výstupem jsou smysluplné informace. Pro upřesnění jsou v definici myšleny za neznámé informace ty, které zná autor dokumentu, ale současně nejsou pro ostatní implicitně viditelné. Nalezení těchto informací je tak velmi obtížným úkolem, který se často realizuje v souborech v celých souborech textů, kde se analyzují jejich vzájemné vazby a souvislosti. Další možnou definicí je popis text miningové metody jako proces objevování respektive získávání znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou důležité pro uživatele používajícího text miningový software [30]. Ten odhaluje propojení a vztahy ne pouze v rámci jednoho dokumentu, ale napříč celým spektrem dokumentů, se kterými v daný okamžik pracuje. Dokumentem pak může být například článek v odborném časopisu, nebo volné textové odpovědi v dotazníku s otevřenými otázkami, různé záznamy databáze, ová korespondence, běžné články v novinách, ale i například judikatura. Prvořadou úlohou text miningu je převést nestrukturovaná textová data do strukturované podoby co Stránka 7

9 nejblíže tomu, jak by to udělal člověk, který by dokumenty četl. Tento softwarově strukturovaný výstup pak lze třídit a vybírat pomocí standardních data miningových metod. Častou mylnou představou je to, že text mining je prakticky to samé, co vyhledávání v textu. [18] Vyhledávací softwary postupují tak, že hledají informace v textovém materiálu chronologicky. To má za následek fakt, že abychom dospěli k požadovanému výsledku, musíme přesně vědět, co hledáme a také přesně formulovat otázku. Textová analýza používá přesně opačný postup. Logicky pak není ani potřeba, abychom přesně znali hledaný termín, naopak, text miningem se odkrývají slova (předměty) a slovní spojení (koncept) obsažené v těle dokumentů a následně se mapují vztahy mezi nimi. Tento rozdíl vyplývá už ze samotné podstaty vyhledávání, například na webu. Tam vyhledáváme věci, které známe, ale chceme si o nich zjistit další informace. Cílem text miningu je naopak získání informace nové, doposud neznámé. [18] Další s text miningem zaměňovanou metodou je data mining. Rozdíl je ten, že text mining zpravidla vychází ze přirozeného jazyka, tedy volného textu a data mining ze strukturovaných dat. [22] To ovšem nevylučuje kombinované použití data miningu a text miningu, kdy si data miningem vypomáháme při samotné analýze již strukturovaných dat. Případně ještě dochází ke kombinaci analýzy strukturovaných a nestrukturovaných dat současně. Příkladem může byt zpracování dotazníků s otevřenými a uzavřenými otázkami, kdy na otevřené dotazy je použit text mining, a na uzavřené otázky data mining. Takovéto komplexní zpracování dává vždy nejlépe použitelný výstup. Další aplikací kombinovaného použití data miningu a text miningu může být vyhledávání trendů v sérii numerických dat a následně vyhledání možných důvodů pro tento vývoj v časových sériích textových dokumentů. [3] Na text mining se nahlíží převážně jako na činnost skládající se ze tří částí. [30] První část procesu se nazývá popsat jako předzpracování textových dokumentů. Vstupní dokument je převeden do určité standardizované podoby, takzvané mezilehlé polohy, se kterou se dále pracuje. Ve druhé fázi se získávají znalosti, které jsou odvozovány z mezilehlé polohy a následně se analyzují. Třetí fázi je pak export dat získaných v druhé fázi do srozumitelné formy, jako grafy tabulky křivky apod. Tolik stručně k částem procesu text miningu. Podrobně budou jednotlivé části ještě rozebrány níže, a to jak v teoretické, tak praktické části bakalářské práce. Stránka 8

10 2.2 Využití- uplatnění Využití a obory uplatnění text miningu jsou široké. Své uplatnění nachází při nejrůznějších analýzách zákaznických dat, například záznamů z call center, dále pak při organizaci a inteligentním vyhledávání v klíčových tržních zprávách, reportech atd. V praxi se prokázalo, že použití text miningu zřetelně přineslo výsledky v širokém spektru komerčních firemních aplikací. Velkým přínosem je vylepšení CMR (Customer Relationship Management), kdy nabízí všestrannější pohled na zákazníky, jejich přání a preference, který vede k následnému efektivnějšímu marketingu, prodloužení životnosti vztahu zákazníka a firmy a v neposlední řadě taky k větší spokojenosti zákazníka a tím také vyšším ziskům firmy. Data pro text mining se získávají jak standardními postupy, tak jsou odebírána prostřednictvím online nástrojů, jako výzkumy nebo data web 2.0 interactions, která se následně využívají i pro brand monitoring. Dalším využitím, jak již bylo stručně zmíněno, je analýza odpovědí otevřeného průzkumu. Pomocí text miningu lze v odpovědích objevit soubory slov nebo fráze používané respondenty při hodnocení kladů a záporů daného produktu, služby nebo značky. Otevřené odpovědi, přestože jsou náročnější na zpracování, ve výsledku dávají kvalitnější a přesnější výsledky. Hlavním důvodem je prostor daný respondentovi pro vyjádření svého stanoviska, kdy není omezen hranicemi nebo možnostmi, jak odpovědět. Jeho odpovědi jsou utříděny ex post pomocí text miningového nástroje. Dalším uplatněním je off-line analýza. Jedná se o hledání souvislostí v historických dokumentech všeho druhu, ať se jedná o sledování konkurence, reakcí na marketingové kampaně, nebo i politické situace a regionálních informací. Všechno toto nachází uplatnění v oborech PR marketingu, Call Center Analytics, Social media analytics, Market inteligence a ostatních oborech převážně Business Inteligence. Text mining slouží k vytvoření co nejlepšího přehledu o stavu konkurence a následnému vytěžení konkurenční výhody. To už je ovšem záležitostí marketingovou. Zkoumaní konkurence ve smyslu business intelligence, takzvaný web crawling, spočívá v analýze webových stránek konkurentů pomocí text miningového nástroje/softwaru. Takto automatizované zpracování obsahu webu konkurence slouží jako velmi efektivní způsob získání základních i podstatných informací o obchodních nabídkách a aktivitě konkurentů. Prozkoumáním webových stránek konkurenta lze automaticky odvodit pojmy z dokumentů, které jsou na dané stránky volně k dispozici. Tím lze určit nejen zaměření společnosti, ale i například akční nabídky společnosti, nabízené produkty a podobně. [30] Stránka 9

11 Text mining našel využití i ve spam filtrech. y jsou automaticky zpracovávány a filtrovány třízeny. Třídění nemusí být pouze na skupiny nevyžádaná pošta (SPAM) a běžná ová komunikace. Filtr příchozí pošty je možno ve větších společnostech nastavit tak, že je pošta nekonkrétně adresovaná pošta (např. podatelna@domena.xx) filtrována dle odborů nebo oddělení, do kterých jsou poté filtrem adresována. Toto velmi pomáhá zaměstnanců a preventivně předchází zahlcení poštovních schránek nevyžádanou nebo nesprávně adresovanou poštou. Prakticky slouží jako určitá bariéra příchozích ů, která dovoluje odfiltrovat případně s automatickou odpovědí vrátit y, kde je použit například nevhodný jazyk. Pro vícejazyčné instituce může bezchybně třídit poštu a přeposílat ji na pracovníky komunikující v tom či onom jazyce. Textová analýza může pomoci odhalit slabé a silné stránky produktu. Tomuto účelu slouží analýza reklamací nebo pojistných škod, obecně analýza otevřených textů z komerčních sfér. Aplikací text miningového algoritmu jsou příslušná data zpracovány a výstupem mohou být třeba nejčastější závady, stížnosti nebo důvody vrácení zboží. Toto jsou jenom některé příklady toho, kde se textová analýza uplatňuje. Každým dnem jsou uskutečňována další nová použití a vylepšována stávající. Soukromoprávní i veřejnoprávní korporace si bohatství skryté v textové informaci jednoduše nemůžou dovolit přehlížet. 2.3 Fáze textové analýzy: Předzpracování dat (preprocessing) Účel předzpracování Textová analýza je poměrně komplikovaný proces. Nejdříve je potřeba data získat a následně upravit. Samotná příprava a převedení textových dokumentů do normalizovaného formátu je rozhodující pro úspěšnou analýzu. Předpříprava textu může být jak velmi rychlá (normalizovaný export z databáze), nebo může naopak zabrat více času, než samotné zpracování dat. V současné době se již společnosti provádějící text miningovou analýzu z vnitřních zdrojů snaží tento proces prakticky eliminovat tím, že již předem dokumenty před uložením na firemní server normalizují, reporty jsou vždy ve stejném formátu a i zaměstnanci mají jednoznačnou instrukci, v jakém formátu data ukládat. Horší variantou je množství souborů uložených v různých formátech, jako MS Word, PDF, XPS, HTML a XML. Může se jednat jak o jednotlivé textové soubory, případně tabulky, ale vyskytují se situace, kdy analyzovaným vzorkem je celá databáze Stránka 10

12 nebo datový sklad. Některé univerzálnější systémy jsou schopny pracovat s více typy souborů, ale specializované zpravidla vyžadují přesně definovaná data (jak typově, tak co se týče kódování). Dále je důležitý i jazyk, ve kterém je jazyk vytvořen. Syntaktická analýza prvků je kategorizována snad nejsložitějším a stále vyvíjejícím se algoritmem, který je aplikován na každý jazyk samostatně a v některých jazycích nelze ani účinně použít. [33] Dále je důležité i kódování dokumentu. V praxi to znamená dokument překódovat do požadované znakové sady. Dále mezi obecnější faktory ovlivňující předpřípravu dat pro analýzu je kategorizace textů, oblasti zájmu uživatelů nebo požadovaná úroveň expertízy. Hlavním cílem předzpracování je získat strukturovaný vzorek textu z původních nestrukturovaných textových dat. Nyní k jednotlivým krokům první fáze předzpracování dat, a sice procesu stemizace/lemmatizace Způsoby-metody předzpracování: Stemizace\Lemmatizace V českém jazyce dochází ke skloňování slov celkem do sedmi pádů. V textu se logicky spousta slov nachází v různých tvarech a nezáleží, zda jde o pády slov, nebo jednotná a množná čísla, či slovesa v minulém, přítomném nebo budoucím čase. Při použití nejprimitivnějšího hledání (například CTRL+F v MS Word) a zadání slova strom program najde tvary strom, stromy stromu a bude se fakticky shodovat s výsledkem text miningového softwaru. Ale v případě, že vyhledáváme slovo sůl nebo dům, pomocí CTRL+F nalezneme pouze první pád těchto podstatných jmen, tvary soli, domu nebo domy nám zůstanou skryté a značnou měrou se podepíší na objektivitě výsledků. Příčinou toho je implementace stemizace nebo lemmatizace do text mineru. Jednoduše řečeno text miner pak převádí každé slovo na základní tvar a následně při zadání úlohy nalezne v dokumentu a zohlední ve výsledku všechna slova v základním tvaru. Přetrvávajícím problémem je to, že existují slova se stejným kořenem, která mají přesto rozdílný význam (ucho, oko atd.). Stemizace (stemming) je založena na tom, že algoritmus očistí slovo od předpon, přípon a koncovek, kdy výsledným tvarem je kořen, který ovšem nemusí být platným slovem, respektive jazykovým tvarem. [20] Lemmatizace směřuje ke stejnému cíli, ale jinými prostředky. Lemmatizátor vyhledává nebo vytváří v databázi programu k jednotlivým slovům takzvané lemma, což je základní gramaticky tvar, který najdeme ve slovníku. Podstatná jména jsou převedena na první pád jednotného čísla, přídavná jména na první pád jednotného čísla Stránka 11

13 mužského rodu prvního stupně v rámci stupňování a slovesa na infinitiv. Například slovní spojení nejmodřejších květin je převedeno na modrá květina. Lemmatizaci využívají také vyhledávače, z českých například Jyxo nebo Morfeo [33] [40] Lemmatizace a stemizace se tak liší svou podstatou, nikoli však samotným účelem. Výhodou stemizace je, že ke své funkci nepotřebuje slovníkovou bázi a není také závislá na její kvalitě. Problémem ovšem je, že dvě různá slova mohou být převedena na jeden stejný stem. Výsledkem použití těchto metod je vyšší počet výsledků (nalezení relevantního výrazu ve všech tvarech) a současně zmenšení velikosti analýzy zajištěné odstraněním redundance (slova v různých tvarech jsou vnímána jako jedno slovo, ne jako více výrazů). Závěrem je vhodné dodat, že obě metody mohou být implementovány do softwaru současně, tedy je použit algoritmus podpořený slovníkovou bází. [20] Lemmatizace a stemizace se využívá pro vyhledávání ve fulltextových databázích. Tento proces probíhá za využití různých počítačových programů, které se obecně označují jako morfologické analyzátory. Pro český jazyk lze využít morfologický analyzátor Ajka, pro angličtinu pak The Porter Stemming Algorithm, nebo lemmatizací slovníky postavené na Ispell a WordNetu. [37] Při vhodném výběru text mineru software sám během analýzy provede celý proces (například program SAS), nebo se používá metoda vytvoření frekvenčních slovníků (program Statistica 10). Metoda vytvoření frekvenčních slovníku Frekvenční slovník (frequency dictionary)- Speciální jazykový slovník, v němž se uvádí četnosti výskytu slova nebo jiné lingvistické jednotky ve stanovené oblasti jazykové komunikace, zejména frekvence základní slovní zásoby [36] [26] Vytvoření frekvenčního slovníku je relativně časově náročná činnost. Je třeba začít obecný vyhledáváním nejčastějších slov v textu pomocí softwaru. Programů je na tuto činnost dostatek, například RextStar nebo AntConc. [11] Při sestavování slovníku narážíme na dvě zásadní otázky, které je třeba zohlednit, a sice jaká a kolik slov analyzovat. Celá procedura výběru slov do slovníku je složitější, než vypsání nejčastějších nebo nejdůležitějších slov. Čeština je plná velmi ohebných slov, proto je vhodnější vybrat ne jednotlivé nejčastější slova, ale slovní základy neboli lemmata. To se provede převedením nejčastějších slov na slovní kořeny a teprve poté se zjišťuje počet výskytů těchto kořenů. [15] Stránka 12

14 Vytvořeni slovníku synonym Dalším nezbytným krokem v první fázi očištění dat je vytvořeni slovníku synonym. Nahrazení slov synonymem je často užívanou technikou plagiátorů pro zakrytí okopírovaného textu. Z tohoto důvodu je jedním z nutných nástrojů pro textovou analýzu slovník lexikální databáze, který umožňuje shlukovat (nacházet podobné) slova podle jejich významu. Taková struktura umožňuje uživateli např. spojovat slova podobného významu pomoci nalézání synonym. Mít takový slovník je potřebné z toho důvodu, že ve volném textu je docela častým jevem to, že se objevují slova, které mají vzájemně odlišný tvar, ale v podstatě stejný význam. To má za výsledek častou redundanci dat a příliš rozsáhlý výstupní seznam klíčových slov. Tomu zabraňují v programu integrované slovníkové soubory, obsahující většinu slovních významu, které se v textu můžou zaměňovat. V případě absence takového slovníků (nebo v případě nepodporovaní jazyka), různé textové analyzátory nabízejí uživatelům možnosti vytváření vlastního slovníků synonymu (podobné vytvářeni frekvenčního slovníků), což velmi časově náročná práce, ale lze nalézt spousta připravených slovníkových souborů, které jsou přístupné běžným uživatelům na webu (bohužel převážně v anglickém jazyce). Pokročilejší variantou slovníku synonym je normalizace slov metodou zobecnění významu slova, to znamená využití hyperonym. Hyperonymum je nadřízené slovo označující obecnější pojem jiného slova. Hyperonymum nahrazuje slovo obecnějším pojmem. Příkladem je nahrazení slov pes a kočka za slovo zvíře. Tenhle postup nahrazuje slova zdola. Jestliže je něco hruškou a jablkem, pak to musí být také ovocem; Při zobecňování slov se na požadovanou úroveň dostaneme průchodem několika úrovní. Například k slovu kočka vedou slova objekt, živoucí entita, zvíře, obratlovec, savec a kočkovitá šelma. Což bude postup zdola nahoru a je to opakem hyperonyma zvané hyponymum. Text převzat z [40] Hyponymum postupuje směrem od obecnějšího významu k samotnému slovu. K tomuto účelu lze použit Word Net tezaurus, který mimo jiné obsahuje hyperonymické odkazy. [39] Vytvoření Stop listu negative dictionary Další procedurou první fáze je vytvoření stop listu, jindy nazývaného jako negativní slovník. Stop list je seznam slov, které nenesou žádnou významnou informaci, zpravidla se jedná o spojky, předložky a části modálních sloves, případně varianty slovesa být. Během aplikace stop listu dochází k mazání těchto pro analýzu Stránka 13

15 irelevantních slov. Většinou se používá již vytvořený stop list pro určitý jazyk, ale není to pravidlem. Na webu lze najít velký počet již hotových stop listů, které obsahují standardní seznam spojek, předložek atd., které lze dále upravit pro individuální potřebu při té či oné analýze. [25] Nahrazování čísel Dalším, s čím je nutné se v některých případech vypořádat, je nahrazení čísel textem. Textové dokumenty docela často v sobě nesou informaci v podobě čísel, a právě tyto čísla mohou být těsně spojité s informací, kterou hledáme. [22] Zpravidla k tomu dochází při kombinaci data minignu a text miningu během analýzy rozsáhlé databáze, kde je důležité najit vztah čísel a volného textu. Pokud se jedna o volný nestrukturovaný text, nejde na analýzu použít data mining a současně většina textových analyzátoru nepozná v textovém řádku číselnou hodnotu. Bud ji nepřečte, nebo přeskočí jako hodnotu, která nenese v sobě význam. Proto je třeba použit metodu nahrazování čísel, která je jednou z technik předpracovaní textu. Tato technika převádí číselné hodnoty na text. Zůstává pouze informace o existenci čísla, nikoli jeho hodnotě. [40] Převedení dokumentů do jednotného formátu Skutečným problémem dnešní doby je celková roztříštěnost formátů a platforem, ve kterých jsou dokumenty ukládány. Nejedná se již pouze o notoricky známé formáty.doc,.pdf,.xml,.html,.txt,.rtf nebo.odt, ale i další exporty dokumentů například do formátů, které jsou dnes masivně využívané primárně ve čtečkách knih. Kvůli nim je vytvářen nespočet dalších, ne zrovna kompatibilních formátů, jako.epub,.fb2,.djvu,.azw,.opf,.tr2,.tr3 nebo.aeh. Samotné analýze tak musí předcházet převedení dokumentů do jednotného formátu. V případě, když je analyzován jeden dokument, by k žádným potížím s formátováním nemělo dojit. Problém vzniká až v případě zpracování několika dokumentů v různých formátech. Pokud databáze souborů pro analýzu obsahuje několik různých formátů dokumentů, muže dojít k chybě při zpracování dokumentů - zamítnutí/přerušení spouštění procesu analýzy, případně program některé formáty prostě nepřečte a přeskočí, což logicky vede ke ztrátě významných informací a tím také k oslabení relevantnosti výsledků. Abychom se vyhnuli těmto potížím, dokumenty se před analýzou převádí na jednotný program pomocí on-line nástrojů, případně specializovaných programů. Ale i tak může docházet k chybám, mezi nejčastější v případě češtiny patří problémy s diakritikou u převedeného textu. Znaky jsou často Stránka 14

16 vzhledem k použití nejednotného kódování u.pdf nahrazeny různými, pro češtinu neznámými symboly. Těmto problémům lze předejít odstraněním diakritiky z textu ještě před jeho převodem. Během zpracování textových dokumentů docela často nastává situace, že textový analyzátor neumí zpracovat text v českém jazyce kvůli diakritice. Důvodem je to, že v sobě nemá integrovanou českou znakovou sadu. Často při převedení dokumentu do jiného formátu a na výstupu dostaneme textový dokument s rozrušenou diakritikou. V takových případech je potřeba z dokumentu dostat text bez diakritických znamének bud manuálně, záměnou znaku za písmena bez diakritiky, nebo pomoci speciálních programu, případně online programu, obsahující funkce, které nahradí vybrané znaky za písmena bez diakritiky ( Existují i další možné úpravy textu ve stadiu předzpracovaní. Demonstrativní výčet je následující (Převzato z [24]): kontrola pravopisu filtrování termínů oprava u poškozeného přeposíláním převod textu na malá či velká písmena oprava textu vzniklého omylem zapnutým Caps Lockem získání čistého textu z kódu webové stránky vytvoření typograficky správného textu v HTML Analýza textu Druhou a nejvíce podstatnou fází textové analýzy je automatické analyzování nestrukturovaných textových dokumentů, získávání strukturované informace z daného dokumentu a její následný rozbor. Zkráceně v této části dochází k analýze předzpracovaného dokumentu a vygenerování termů. Termem se rozumí základní prvek, kterým jsou jednotlivá slova nebo sousloví, které slouží k analýze. [30] Objevení různých zákonitostí v textu a existence softwaru, který automatizuje proces odhalení takovýchto zákonitostí a poskytuje možnost hledání klíčových slov, rozpoznání druhu a obsahu textu nebo vytvoření stručného shrnutí dokumentu (abstraktu), aniž by byla potřeba ho číst. Prostředí textového analyzátoru je velmi různorodé a existuje množství různých způsobů dolování dat z textu. Text může být tak roztříděn podle témat, která danou oblast reprezentují, nebo mohou být vyhledána klíčová slova, případně může být vytvořen souhrn textu. Tato Stránka 15

17 fáze umožňuje roztřídit a transformovat nestrukturované informace do smysluplné podoby. Výběr vhodného způsobu analýzy, typ a podoba získané informace jsou velmi závislé na tématu zadaného požadavku. Nástroje k dosažení výsledků text analýzy jsou různorodé, například: text categorization (kategorizace textu), document clustering (shlukování dokumentů), document filtering, (filtrování dokumentů) duplication detection (detekce duplikace), information extraction (extrakce informací), text summarization (sumarizace textů) atd Jednotlivé úlohy analýzy textu Kategorizace textů (Text categorization) Text categorization, česky nazývaná prostým překladem kategorizací textů je úkol zadaný softwaru, který určuje druh dokumentů podle obsahu, tématu, názvů nebo klíčových slov, a poté je organizuje, to znamená, třídí dokumenty do předem definovaných kategorií (např. politika, ekonomika, sport) [12] [29] Každý text může být přiřazen výlučně do jedné kategorie, nebo také k více kategoriím, případně nezařazen nikam. Typicky je toto provedeno pomocí četnosti výskytu slov v textu, nebo klasickou metodou roztřídění podle stejného názvu dokumentu. Kategorizace textů může být použita pro takový typ dokumentů, jako novinové články, y, webové stránky atp. Automatické detekce tématu dokumentu může být využito při správě rozsáhlých úložišť, při eliminaci nevyžádané pošty nebo pro odfiltrování stránek nevhodného obsahu (například pomocí rodičovského filtru na PC). Tuto úlohu lze využít i při analýze webového průzkumu nebo reklamací, kdy software sám roztřídí typ odpovědí na kladné, záporné a irelevantní, případně podle dalších znaků. Příslušné oddělení se pak efektivně zabývá pouze odpověďmi, které mají informační hodnotu a nad ostatními neztrácí čas. Shlukování textů (text clustering) Jedním z dalších způsobů analýzy je identifikace textových dokumentů pomocí shlukové analýzy. Lze říci, že shlukování textů je proces seskupování dokumentů na základě vzájemné podobnosti. Jeden z prvních, kdo tento pojem nazval, pokusil se definovat a také poprvé použil, byl Kalifornský profesor psychologie R. C. Tryon. Ten v roce 1939 publikoval knihu Shluková analýza. Pojem definoval takto: Shluková analýza je obecný logický postup formulovaný jako procedura, pomocí níž seskupujeme objektivně jedince do skupin na základě jejich podobností a rozdílností. [35] Stránka 16

18 Shlukovou analýzou textů rozumíme proces, který používá různé algoritmy k uspořádání a sloučení dat s podobným významem do skupiny (shluku). Praktickým výsledkem je dělení všech dokumentů na skupiny, ve kterých jsou shlukovány nejvíce podobné dokumenty podle jejich příbuznosti obsahu a zadaných parametrů. Shluková analýza zabezpečuje, aby v jednotlivém shluku byly zařazené dokumenty co nejvíce podobné, a současně také, aby jednotlivé shluky byly co nejvíce odlišné od shluků ostatních. Cílem shlukové analýzy je tak rozlišení množin (clusterů), ve kterých je podobnost s jinými clustery minimální, a současně vnitřní podobnost clusteru maximální. [17] Ze samotné podstaty shlukové analýzy je zřejmé, že každý analyzovaný dokument musí být zařazen do jedné skupiny. Pokud je pro rozlišení použit obsah dokumentů, pak různé skupiny korespondují s různými náměty a tématy obsaženými v tomto souboru dokumentů (k identifikaci námětu/ tématu skupiny shlukové nástroje používají slova, která jsou běžná v dokumentech dané skupiny). Obrázek 1 - převzat z [36] Obrázek ukazuje jednotlivé textové záznamy (dokumenty, formuláře, žádosti atd.), které byly podrobeny analýze. Záznamy, které jsou mimo hlavní shluk, se nějakým způsobem od většiny dokumentů odlišují, a proto by jim mělo věnovat pozornost. [36] Shlukování textů je do jisté míry podobné textové kategorizaci, popsané v předchozím odstavci. Rozdílem je, že proces kategorizace dokumentu dokumenty roztřídí do předem stanovených skupin, naopak text clustering jednotlivé dokumenty na základě vzájemné podobnosti a klíčová slova extrahuje přímo z textu. Problémem se může ukázat, že vytvořené kategorie na základě náplně dokumentu nemusí vždy logicky odpovídat kategoriím, tak jak by je vytvořil člověk. Potom se stává to, že sportovní výsledky mohou spadat do stejné kategorie jako například ekonomické ukazatele, protože obsahují nadprůměrné množství čísel. Proto je také nutné, aby s text minerem pracoval odborník a zadával mu co nejkonkrétnější příkazy. Pro správnou operaci Stránka 17

19 existují speciálně vyvinuté algoritmy, kterými se ovšem nebudu zabývat, neboť práce není matematicky zaměřená. Analýza sentimentu Analýza sentimentu (sentiment analysis) člení dokumenty podle emočního obsahu do třech skupin: pozitivní (positive), negativní (negative) a neutrální (neutral). Během člověkem vytvořeného textového záznamu pracuje software podle citově zabarvených slov, případně podle toho, jaká slova obecně jsou použita v dokumentu. Analýzou textu lze usoudit mnoho informací o autorovi, nejen jeho postoj, ale i věk, pohlaví, myšlení, postoj k adresátovi, nebo do určité míry i vzdělanost. Většinou se hodnotí sentiment podle použití expresivních slov pokud jsou použita nadprůměrně, jsou následně rozdělena mezi pozitivní a negativní a stejně tak je definován text. Pokud je jejich výskyt v nízké míře, je text kategorizován jako neutrální. [5] Shrnutí textu Dalším způsobem analýzy může být shrnutí textu, tedy text summary. Tato analýza se velmi dobře uplatní, pokud se zpracovává rozsáhlý textový dokument v krátkém čase. Manuálně všechen text přečíst a porozumět mu je občas mimo časové možnosti. Právě pomocí automatického nástroje text miningu lze vytvořit shrnutí originálních rozsáhlých dokumentů, případně shrnovat uživatelem nastavené části (sekce, odstavce). [21][16] Princip shrnování textu je, že software skenuje text pomocí metody summary extraction a z daného dokumentu vybírá nejdůležitější části důležitost je zpravidla definována uživatelem, ale není to podmínkou. Definice probíhá tak, že uživatel stanoví takzvané koncepty, kterými jsou regulární výrazy nebo gramatická pravidla a dle nich pak text miner prohledá všechny dokumenty. Takovýto postup je vhodný za předpokladu, že víme, co je pro nás důležité a nechceme číst velké množství textu, abychom zjistili co nejvíce informací o oblasti zájmu. [34] Software tak najde požadované informace automaticky a výstupem bude smysluplná informace vytěžená s rozsáhlého textového dokumentu. Konkrétním příkladem softwaru může být třeba SAS text summarization. [27] Existuje ještě jeden podobný způsob shrnování textu. Jedná se o summary abstraction. Tato metoda poskytuje lepší výsledky, text je hlouběji analyzován, kdy na základě jeho sémantické reprezentace je parafrázován obsah. Problémem je však, že se Stránka 18

20 jedná o čistě strojovou úpravu a výsledné generování souvislého textu není na takové úrovni, aby dosahovalo srozumitelnosti výstupu po použití text summary. [16] Extrakce informací Pojem extrakce informací většinou znamená převedení nestrukturovaného nebo částečně strukturovaného textu do strukturované podoby. Obecně se tak jedná o princip předzpracování, ale může být i jednou z metod samotné textové analýzy. V tomto smyslu nabývá zcela jiný význam, sice spočívá v identifikace jednotlivých klíčových komponent v textu a jejich vzájemných vztahů. Z textových dokumentů jsou tak extrahovány předem specifikované informace a ty jsou následně organizovány. Poté je generován strukturovaný soubor informací, se kterým lze vykonávat další operace. [30] Celý tento proces funguje na principu skenování textu za účelem nahrazení určitých slov a výrazů takzvanými nálepkami pojmu. Poté již se jen odkazuje na tyto nálepky pojmů a získávají se strukturovaná data. Pro celý proces je klíčové, aby v textu bylo možné rozpoznat jména lidí, organizací, míst atd. [19] Extrakce konceptů; rozpoznání pojmenovaných entit Tento způsob extrakce určuje entity k různým variacím pojmenování entity. Pokud bude například v článku zmíněn americký prezident, pak i jeho jméno, případně pojem prezident USA bude přiřazen stejné entitě. Zpracování těchto výrazů je jedním z největších problémů při zpracování přirozeného jazyka. (Labský, Svátek, 2007) [19] [30] Určení vztahu mezi entitami Po správném určení entit následuje další složitý úkon. Na základě analýzy vět a rozpoznání entit lze definovat a rozpoznat vztahy mezi entitami. [30] Pokud se v textu objeví informace, že Dagmar Veškrnová se vdala za Václava Havla, pak je text miner schopen definovat entitu prezidentovy manželky, nebo správně zařadit Dagmar Havlovou do této entity. Současně již zůstane definován vztah mezi těmito dvěma enenitami, tedy prezidentem a jeho manželkou. S touto problematikou také souvisí rozpoznání jmen (name recognition). Nejedná se pouze o jména osob, ale i o geografické lokace, společnosti a organizace, jména produktů, umělecká díla, sportovní kluby, skupiny, atd.). Správné použití rozpoznání jmen je klíčové, protože v textu se často software potýká se s problémem mnohoznačnosti, a na rozdíl od člověka slovo tak snadno logicky nepřiřadí pod správnou skupinu, případně entitu. [23] Stránka 19

Zobrazit více