Natalya Chernykh. Bakalářská práce
|
|
- Marcel Dvořák
- před 8 lety
- Počet zobrazení:
Transkript
1 Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze Natalya Chernykh Analýza textu (text mining) pomocí vybraného softwaru Bakalářská práce 2012
2 Poděkování Ráda bych věnovala poděkování Ing. Stanislavě Hruškové Ph.D, za podporu a trpělivost při psaní této bakalářské práce. Stránka 1
3 Prohlašuji, že jsem bakalářskou práci na téma Analýza textu (text mining) pomocí vybraného softwaru zpracovala samostatně a použila pouze zdrojů, které cituji a uvádím v seznamu použité literatury. V Praze dne Podpis Stránka 2
4 Obsah: 1. Úvod: Teoretická část Podstata text miningu Využití- uplatnění Fáze textové analýzy: Předzpracování dat (preprocessing) Analýza textu Extrakce výsledek Praktická část Předpokládaný postup Postup analýzy textu Vyhledání a sběr podkladů Kritéria pro výběr software Výběr vhodného softwaru pro analýzu textu Použitý hardware a software Předpříprava analyzovaného vzorku Textová analýza Zpracování zadané úlohy Závěr Seznam citací: Seznam použité literatury a internetových zdrojů: Seznam příloh Stránka 3
5 Abstrakt: Cílem práce je analyzovat vybraným softwarem 100 posudků bakalářských prací a pomocí textové analýzy odhalit nejčastější chyby studentů, které jsou v posudcích zmiňovány oponenty. Bakalářská práce v teoretické části popisuje podstatu text miningu a jeho využití v praxi. Dále je zde popsán a vysvětlen samotný proces text miningu, jeho fáze a metody. V praktické části jsou uvedeny dostupné nástroje pro analýzu textu a použitý hardware a software. Samotný průběh všech fází textové analýzy pomocí vybraného softwarového nástroje Statistica 10 je podrobně popsán a doplněn obrázky z grafického rozhraní programu a výsledky jsou srovnány s výsledky manuální analýzy. V závěru jsou shrnuty a zhodnoceny veškeré poznatky, které je možné vyvodit z výsledků analýzy softwarem a uvedeno, jaké výhody a nevýhody přináší text miningu v návaznosti na výsledek práce. Klíčová slova: text mining, textová analýza, vyhledávání informací, extrakce informací, chyby Abstract: The aim of this thesis is to analyze by selected software 100 opinions bachelor theses using text analysis software to detect the most common mistakes of students mentioned in opponents checks. Theoretical part of bachelor thesis describes the essence of text mining and its application in practice. Furthermore, there is explained and described text mining process itself, and the phases of this method. In the practical part of thesis describes available tools for text analysis and HW/SW equipment used for analysis The progress of all phases of text analysis using software tool Statistica 10 is described in detail and accompanied by screenshots from the graphical interface. Statistica 10 results are compared with the results of manual analysis. In conclusion are summarized and evaluated all the information that can be deduced from the results of the analysis software and shown the advantages and disadvantages that bringing text mining following the outcome of the work. Stránka 4
6 Úvod: Analýza textu (text mining) pomocí vybraného softwaru V současné době, kdy drtivá většina dokumentů vzniká v elektronickém formátu, nabývají stále více na významu dovednosti a znalosti Business inteligence, mezi které patří i metody text miningu a data miningu. Právě text miningem a jeho konkrétním praktickým využitím se budu ve své práci zbývat. Téma analýza textu pomocí vybraného softwaru jsem zvolila z důvodu, že mě vždy zajímalo, zda je dostupný komplexní software, který by uměl analyzovat nejen samostatný textový soubor, ale i rozsáhlý vzorek textových souborů za účelem vyhledání nejčastěji se vyskytujících slov a slovních spojení, včetně synonym. Přínosná by byla i funkce obsahové analýzy, která poskytuje rychlý přehled o obsahu textového dokumentu bez nutnosti jej číst. Konkrétní zaměření, tedy předmět analýzy (100 posudků bakalářských prací), jsem zvolila proto, že je toto téma v souvislosti s bakalářskými pracemi vždy aktuální a často diskutované a správná interpretace analýzy bude zajisté přínosná nejen pro případné čtenáře této práce, ale bude mít nezanedbatelný vliv i na vlastní kvalitu vypracování bakalářské práce. Za cíl práce jsem si stanovila analýzu 100 posudků bakalářských prací vybraným text miningovým softwarem za účelem nalézt nejčastější chyby studentů při vypracovávání BP, respektive jaké chyby nejčastěji uvádějí vedoucí bakalářských prací. Tyto chyby budu následně systematizovat, přiřazovat k vyhledaným výrazům a slovním spojením synonyma a v závěru bude výstup komplexně statisticky popsán a výsledky zhodnoceny a shrnuty. Postup při řešení bakalářské práce bude chronologický. Po teoretickém zmapování problematiky, kde budou popsány principy text miningu, bude nalezen vhodný software pro analýzu vybraného vzorku posudků bakalářských prací. Kritéria na software budou stanovena tak, aby byl použitelný pro širokou skupinu uživatelů, měl by podporovat českou znakovou sadu, umět pracovat se synonymy a vyhledávat v textu pomocí různých metod. Další vedlejší kritéria budou specifikována v praktické části. V praktické části je rizikem, že nenajdu dostatečně vhodný software, který by splňoval všechny výše uvedené požadavky. Nicméně s touto alternativou počítám, a v případě, že software nebude dostatečně schopný obsáhnout všechny uvedené funkce, použiji pravděpodobně časově velmi náročné manuální statistické zpracování dat za použití standardního kancelářského softwaru (MS Excel). Manuální zpracování však bude následovat i po úspěšném použití softwaru, neboť je nutné pravdivost výsledků ověřit. Stránka 5
7 Teoretická část. 2.1 Podstata text miningu Spolu s masivní elektronizací dokumentů ve všech sférách lidských činností začalo v letech nedávno minulých docházet k masivnímu nárůstu množství dat uložených v elektronické podobě. Přibližně 80 procent dat uložených v nejrůznějších databázích má podobu textu, je tedy v podobě nestrukturovaných dat.[36] Všechny tyto data jsou výsledkem práce webových vyhledávačů, blogů, různých anket, výzkumů, reakcí zákazníků, softwarových nástrojů, tedy jsou produktem jak přímé lidské činnosti, tak také činnosti různých robotů a strojů, kteří generují v reálném čase velké množství textových dat. Například internetové vyhledávače jako nebo vygenerují denně tolik informací, že by z nich bylo možno sestavit několik milionů knih. Dalším příkladem může být počet ů. Odhaduje se, že počet ů, který projde denně všemi typy počítačových sítí je 62 miliard. [18] To jsou stovky gigabajtů textu. Informace obsažené obecně v těchto, tedy nejen rozesílaných, dokumentech, by se přitom daly vyjádřit mnohem stručněji, protože klíčová informace, kterou tyto dokumenty nesou je podstatně menší. Přečíst a manuálně provést analýzu tak obrovského kvanta dat je nemožné, avšak tyto textové informace v sobě obsahují zpravidla údaje, jejichž využití pomůže získat komplexní obraz o daném bodu zájmu a zvýšit v tomto směru také efektivitu rozhodování. Pro uživatele je proto nezbytné, aby ve všech nestrukturovaných textových informacích uložených na svých serverech neztratily přehled, průběžně je systematizovaly a samozřejmě také vytěžili prospěch z včasného získání dalších informací analýzou stávajících dat. Právě zde nastupuje na scénu text mining. Text mining je metoda, která umí nestrukturovaná textová data zpracovat a poskytne nám stěžejní informaci obsaženou v textu dokumentu, setřídí dokumenty podle podobnosti bez toho, aby je musel někdo číst. Celý tento automatický proces bez potřeby lidských zdrojů je v současné době velmi žádoucí. [36] Historie metody text miningu je poměrně krátká a logicky souvisí se samotnou existencí dat v digitální formě. Přibližně před čtyřiceti lety inženýři začali hledat způsob, jak propojit sbírky textových dokumentů pomocí počítačových technologií [17]. Položili tak základy vědecké disciplíně, která je známa jako počítačová lingvistika a je v současné době populární na mnohých univerzitách a různých výzkumných ústavech celého světa. Původně byla počítačová lingvistka čistě nekomerčně zaměřená na hledání Stránka 6
8 způsobů, jak roztřídit a prozkoumat obsah nejrůznějších textových dokumentů (odborné knihy a časopisy, soudní záznamy, noviny, reporty, patenty), které mohou být převedeny do elektronické podoby. V současné době je tento vědecký obor základním zdrojem informací a metod pro text mining, jako souhrnné označení systému dolování informací v digitální textové formě, které se skládá ze složitých lingvistických metod a kompletní sady nástrojů pokročilé analytiky a statistiky. Text mining se stal nejrozšířenější technologií při řešení úloh reálného světa, počínaje analýzou malých záznamů až k organizaci inteligentního vyhledávání a interpretaci tržních zpráv. Obor text miningu obecně spadá pod soubor data miningových metod, kde vznikl jako další odvětví data miningu, pokrývající požadavky po zpracování textů za souběžného vyhledání informací v nich obsažených. Důvodem separace text mining od data miningu je především skutečnost, že data mining má obecnější záběr, vyhledává a zpracovává informace i v číslech, nominálních a ordinárních proměnných, naopak text mining se specializuje výhradně na práci s nestrukturovaným textem. [30] [36] Formálněji by se text mining dal definovat následujícím způsobem. Text mining (textová analýza) nebo někdy může být alternativně nazýván data miningem je metoda netriviální automatické extrakce skryté, implicitní, předem neznámé a potenciálně užitečné a důležité informace z velkého množství nestrukturovaných" a částečně strukturovaných textových dat pomocí kombinaci strojového učení, pokročilých statistických analýz, různých algoritmu, identifikace jádrových konceptů, postojů a trendů a následného použití této informace [30]. Výstupem jsou smysluplné informace. Pro upřesnění jsou v definici myšleny za neznámé informace ty, které zná autor dokumentu, ale současně nejsou pro ostatní implicitně viditelné. Nalezení těchto informací je tak velmi obtížným úkolem, který se často realizuje v souborech v celých souborech textů, kde se analyzují jejich vzájemné vazby a souvislosti. Další možnou definicí je popis text miningové metody jako proces objevování respektive získávání znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou důležité pro uživatele používajícího text miningový software [30]. Ten odhaluje propojení a vztahy ne pouze v rámci jednoho dokumentu, ale napříč celým spektrem dokumentů, se kterými v daný okamžik pracuje. Dokumentem pak může být například článek v odborném časopisu, nebo volné textové odpovědi v dotazníku s otevřenými otázkami, různé záznamy databáze, ová korespondence, běžné články v novinách, ale i například judikatura. Prvořadou úlohou text miningu je převést nestrukturovaná textová data do strukturované podoby co Stránka 7
9 nejblíže tomu, jak by to udělal člověk, který by dokumenty četl. Tento softwarově strukturovaný výstup pak lze třídit a vybírat pomocí standardních data miningových metod. Častou mylnou představou je to, že text mining je prakticky to samé, co vyhledávání v textu. [18] Vyhledávací softwary postupují tak, že hledají informace v textovém materiálu chronologicky. To má za následek fakt, že abychom dospěli k požadovanému výsledku, musíme přesně vědět, co hledáme a také přesně formulovat otázku. Textová analýza používá přesně opačný postup. Logicky pak není ani potřeba, abychom přesně znali hledaný termín, naopak, text miningem se odkrývají slova (předměty) a slovní spojení (koncept) obsažené v těle dokumentů a následně se mapují vztahy mezi nimi. Tento rozdíl vyplývá už ze samotné podstaty vyhledávání, například na webu. Tam vyhledáváme věci, které známe, ale chceme si o nich zjistit další informace. Cílem text miningu je naopak získání informace nové, doposud neznámé. [18] Další s text miningem zaměňovanou metodou je data mining. Rozdíl je ten, že text mining zpravidla vychází ze přirozeného jazyka, tedy volného textu a data mining ze strukturovaných dat. [22] To ovšem nevylučuje kombinované použití data miningu a text miningu, kdy si data miningem vypomáháme při samotné analýze již strukturovaných dat. Případně ještě dochází ke kombinaci analýzy strukturovaných a nestrukturovaných dat současně. Příkladem může byt zpracování dotazníků s otevřenými a uzavřenými otázkami, kdy na otevřené dotazy je použit text mining, a na uzavřené otázky data mining. Takovéto komplexní zpracování dává vždy nejlépe použitelný výstup. Další aplikací kombinovaného použití data miningu a text miningu může být vyhledávání trendů v sérii numerických dat a následně vyhledání možných důvodů pro tento vývoj v časových sériích textových dokumentů. [3] Na text mining se nahlíží převážně jako na činnost skládající se ze tří částí. [30] První část procesu se nazývá popsat jako předzpracování textových dokumentů. Vstupní dokument je převeden do určité standardizované podoby, takzvané mezilehlé polohy, se kterou se dále pracuje. Ve druhé fázi se získávají znalosti, které jsou odvozovány z mezilehlé polohy a následně se analyzují. Třetí fázi je pak export dat získaných v druhé fázi do srozumitelné formy, jako grafy tabulky křivky apod. Tolik stručně k částem procesu text miningu. Podrobně budou jednotlivé části ještě rozebrány níže, a to jak v teoretické, tak praktické části bakalářské práce. Stránka 8
10 2.2 Využití- uplatnění Využití a obory uplatnění text miningu jsou široké. Své uplatnění nachází při nejrůznějších analýzách zákaznických dat, například záznamů z call center, dále pak při organizaci a inteligentním vyhledávání v klíčových tržních zprávách, reportech atd. V praxi se prokázalo, že použití text miningu zřetelně přineslo výsledky v širokém spektru komerčních firemních aplikací. Velkým přínosem je vylepšení CMR (Customer Relationship Management), kdy nabízí všestrannější pohled na zákazníky, jejich přání a preference, který vede k následnému efektivnějšímu marketingu, prodloužení životnosti vztahu zákazníka a firmy a v neposlední řadě taky k větší spokojenosti zákazníka a tím také vyšším ziskům firmy. Data pro text mining se získávají jak standardními postupy, tak jsou odebírána prostřednictvím online nástrojů, jako výzkumy nebo data web 2.0 interactions, která se následně využívají i pro brand monitoring. Dalším využitím, jak již bylo stručně zmíněno, je analýza odpovědí otevřeného průzkumu. Pomocí text miningu lze v odpovědích objevit soubory slov nebo fráze používané respondenty při hodnocení kladů a záporů daného produktu, služby nebo značky. Otevřené odpovědi, přestože jsou náročnější na zpracování, ve výsledku dávají kvalitnější a přesnější výsledky. Hlavním důvodem je prostor daný respondentovi pro vyjádření svého stanoviska, kdy není omezen hranicemi nebo možnostmi, jak odpovědět. Jeho odpovědi jsou utříděny ex post pomocí text miningového nástroje. Dalším uplatněním je off-line analýza. Jedná se o hledání souvislostí v historických dokumentech všeho druhu, ať se jedná o sledování konkurence, reakcí na marketingové kampaně, nebo i politické situace a regionálních informací. Všechno toto nachází uplatnění v oborech PR marketingu, Call Center Analytics, Social media analytics, Market inteligence a ostatních oborech převážně Business Inteligence. Text mining slouží k vytvoření co nejlepšího přehledu o stavu konkurence a následnému vytěžení konkurenční výhody. To už je ovšem záležitostí marketingovou. Zkoumaní konkurence ve smyslu business intelligence, takzvaný web crawling, spočívá v analýze webových stránek konkurentů pomocí text miningového nástroje/softwaru. Takto automatizované zpracování obsahu webu konkurence slouží jako velmi efektivní způsob získání základních i podstatných informací o obchodních nabídkách a aktivitě konkurentů. Prozkoumáním webových stránek konkurenta lze automaticky odvodit pojmy z dokumentů, které jsou na dané stránky volně k dispozici. Tím lze určit nejen zaměření společnosti, ale i například akční nabídky společnosti, nabízené produkty a podobně. [30] Stránka 9
11 Text mining našel využití i ve spam filtrech. y jsou automaticky zpracovávány a filtrovány třízeny. Třídění nemusí být pouze na skupiny nevyžádaná pošta (SPAM) a běžná ová komunikace. Filtr příchozí pošty je možno ve větších společnostech nastavit tak, že je pošta nekonkrétně adresovaná pošta (např. podatelna@domena.xx) filtrována dle odborů nebo oddělení, do kterých jsou poté filtrem adresována. Toto velmi pomáhá zaměstnanců a preventivně předchází zahlcení poštovních schránek nevyžádanou nebo nesprávně adresovanou poštou. Prakticky slouží jako určitá bariéra příchozích ů, která dovoluje odfiltrovat případně s automatickou odpovědí vrátit y, kde je použit například nevhodný jazyk. Pro vícejazyčné instituce může bezchybně třídit poštu a přeposílat ji na pracovníky komunikující v tom či onom jazyce. Textová analýza může pomoci odhalit slabé a silné stránky produktu. Tomuto účelu slouží analýza reklamací nebo pojistných škod, obecně analýza otevřených textů z komerčních sfér. Aplikací text miningového algoritmu jsou příslušná data zpracovány a výstupem mohou být třeba nejčastější závady, stížnosti nebo důvody vrácení zboží. Toto jsou jenom některé příklady toho, kde se textová analýza uplatňuje. Každým dnem jsou uskutečňována další nová použití a vylepšována stávající. Soukromoprávní i veřejnoprávní korporace si bohatství skryté v textové informaci jednoduše nemůžou dovolit přehlížet. 2.3 Fáze textové analýzy: Předzpracování dat (preprocessing) Účel předzpracování Textová analýza je poměrně komplikovaný proces. Nejdříve je potřeba data získat a následně upravit. Samotná příprava a převedení textových dokumentů do normalizovaného formátu je rozhodující pro úspěšnou analýzu. Předpříprava textu může být jak velmi rychlá (normalizovaný export z databáze), nebo může naopak zabrat více času, než samotné zpracování dat. V současné době se již společnosti provádějící text miningovou analýzu z vnitřních zdrojů snaží tento proces prakticky eliminovat tím, že již předem dokumenty před uložením na firemní server normalizují, reporty jsou vždy ve stejném formátu a i zaměstnanci mají jednoznačnou instrukci, v jakém formátu data ukládat. Horší variantou je množství souborů uložených v různých formátech, jako MS Word, PDF, XPS, HTML a XML. Může se jednat jak o jednotlivé textové soubory, případně tabulky, ale vyskytují se situace, kdy analyzovaným vzorkem je celá databáze Stránka 10
12 nebo datový sklad. Některé univerzálnější systémy jsou schopny pracovat s více typy souborů, ale specializované zpravidla vyžadují přesně definovaná data (jak typově, tak co se týče kódování). Dále je důležitý i jazyk, ve kterém je jazyk vytvořen. Syntaktická analýza prvků je kategorizována snad nejsložitějším a stále vyvíjejícím se algoritmem, který je aplikován na každý jazyk samostatně a v některých jazycích nelze ani účinně použít. [33] Dále je důležité i kódování dokumentu. V praxi to znamená dokument překódovat do požadované znakové sady. Dále mezi obecnější faktory ovlivňující předpřípravu dat pro analýzu je kategorizace textů, oblasti zájmu uživatelů nebo požadovaná úroveň expertízy. Hlavním cílem předzpracování je získat strukturovaný vzorek textu z původních nestrukturovaných textových dat. Nyní k jednotlivým krokům první fáze předzpracování dat, a sice procesu stemizace/lemmatizace Způsoby-metody předzpracování: Stemizace\Lemmatizace V českém jazyce dochází ke skloňování slov celkem do sedmi pádů. V textu se logicky spousta slov nachází v různých tvarech a nezáleží, zda jde o pády slov, nebo jednotná a množná čísla, či slovesa v minulém, přítomném nebo budoucím čase. Při použití nejprimitivnějšího hledání (například CTRL+F v MS Word) a zadání slova strom program najde tvary strom, stromy stromu a bude se fakticky shodovat s výsledkem text miningového softwaru. Ale v případě, že vyhledáváme slovo sůl nebo dům, pomocí CTRL+F nalezneme pouze první pád těchto podstatných jmen, tvary soli, domu nebo domy nám zůstanou skryté a značnou měrou se podepíší na objektivitě výsledků. Příčinou toho je implementace stemizace nebo lemmatizace do text mineru. Jednoduše řečeno text miner pak převádí každé slovo na základní tvar a následně při zadání úlohy nalezne v dokumentu a zohlední ve výsledku všechna slova v základním tvaru. Přetrvávajícím problémem je to, že existují slova se stejným kořenem, která mají přesto rozdílný význam (ucho, oko atd.). Stemizace (stemming) je založena na tom, že algoritmus očistí slovo od předpon, přípon a koncovek, kdy výsledným tvarem je kořen, který ovšem nemusí být platným slovem, respektive jazykovým tvarem. [20] Lemmatizace směřuje ke stejnému cíli, ale jinými prostředky. Lemmatizátor vyhledává nebo vytváří v databázi programu k jednotlivým slovům takzvané lemma, což je základní gramaticky tvar, který najdeme ve slovníku. Podstatná jména jsou převedena na první pád jednotného čísla, přídavná jména na první pád jednotného čísla Stránka 11
13 mužského rodu prvního stupně v rámci stupňování a slovesa na infinitiv. Například slovní spojení nejmodřejších květin je převedeno na modrá květina. Lemmatizaci využívají také vyhledávače, z českých například Jyxo nebo Morfeo [33] [40] Lemmatizace a stemizace se tak liší svou podstatou, nikoli však samotným účelem. Výhodou stemizace je, že ke své funkci nepotřebuje slovníkovou bázi a není také závislá na její kvalitě. Problémem ovšem je, že dvě různá slova mohou být převedena na jeden stejný stem. Výsledkem použití těchto metod je vyšší počet výsledků (nalezení relevantního výrazu ve všech tvarech) a současně zmenšení velikosti analýzy zajištěné odstraněním redundance (slova v různých tvarech jsou vnímána jako jedno slovo, ne jako více výrazů). Závěrem je vhodné dodat, že obě metody mohou být implementovány do softwaru současně, tedy je použit algoritmus podpořený slovníkovou bází. [20] Lemmatizace a stemizace se využívá pro vyhledávání ve fulltextových databázích. Tento proces probíhá za využití různých počítačových programů, které se obecně označují jako morfologické analyzátory. Pro český jazyk lze využít morfologický analyzátor Ajka, pro angličtinu pak The Porter Stemming Algorithm, nebo lemmatizací slovníky postavené na Ispell a WordNetu. [37] Při vhodném výběru text mineru software sám během analýzy provede celý proces (například program SAS), nebo se používá metoda vytvoření frekvenčních slovníků (program Statistica 10). Metoda vytvoření frekvenčních slovníku Frekvenční slovník (frequency dictionary)- Speciální jazykový slovník, v němž se uvádí četnosti výskytu slova nebo jiné lingvistické jednotky ve stanovené oblasti jazykové komunikace, zejména frekvence základní slovní zásoby [36] [26] Vytvoření frekvenčního slovníku je relativně časově náročná činnost. Je třeba začít obecný vyhledáváním nejčastějších slov v textu pomocí softwaru. Programů je na tuto činnost dostatek, například RextStar nebo AntConc. [11] Při sestavování slovníku narážíme na dvě zásadní otázky, které je třeba zohlednit, a sice jaká a kolik slov analyzovat. Celá procedura výběru slov do slovníku je složitější, než vypsání nejčastějších nebo nejdůležitějších slov. Čeština je plná velmi ohebných slov, proto je vhodnější vybrat ne jednotlivé nejčastější slova, ale slovní základy neboli lemmata. To se provede převedením nejčastějších slov na slovní kořeny a teprve poté se zjišťuje počet výskytů těchto kořenů. [15] Stránka 12
14 Vytvořeni slovníku synonym Dalším nezbytným krokem v první fázi očištění dat je vytvořeni slovníku synonym. Nahrazení slov synonymem je často užívanou technikou plagiátorů pro zakrytí okopírovaného textu. Z tohoto důvodu je jedním z nutných nástrojů pro textovou analýzu slovník lexikální databáze, který umožňuje shlukovat (nacházet podobné) slova podle jejich významu. Taková struktura umožňuje uživateli např. spojovat slova podobného významu pomoci nalézání synonym. Mít takový slovník je potřebné z toho důvodu, že ve volném textu je docela častým jevem to, že se objevují slova, které mají vzájemně odlišný tvar, ale v podstatě stejný význam. To má za výsledek častou redundanci dat a příliš rozsáhlý výstupní seznam klíčových slov. Tomu zabraňují v programu integrované slovníkové soubory, obsahující většinu slovních významu, které se v textu můžou zaměňovat. V případě absence takového slovníků (nebo v případě nepodporovaní jazyka), různé textové analyzátory nabízejí uživatelům možnosti vytváření vlastního slovníků synonymu (podobné vytvářeni frekvenčního slovníků), což velmi časově náročná práce, ale lze nalézt spousta připravených slovníkových souborů, které jsou přístupné běžným uživatelům na webu (bohužel převážně v anglickém jazyce). Pokročilejší variantou slovníku synonym je normalizace slov metodou zobecnění významu slova, to znamená využití hyperonym. Hyperonymum je nadřízené slovo označující obecnější pojem jiného slova. Hyperonymum nahrazuje slovo obecnějším pojmem. Příkladem je nahrazení slov pes a kočka za slovo zvíře. Tenhle postup nahrazuje slova zdola. Jestliže je něco hruškou a jablkem, pak to musí být také ovocem; Při zobecňování slov se na požadovanou úroveň dostaneme průchodem několika úrovní. Například k slovu kočka vedou slova objekt, živoucí entita, zvíře, obratlovec, savec a kočkovitá šelma. Což bude postup zdola nahoru a je to opakem hyperonyma zvané hyponymum. Text převzat z [40] Hyponymum postupuje směrem od obecnějšího významu k samotnému slovu. K tomuto účelu lze použit Word Net tezaurus, který mimo jiné obsahuje hyperonymické odkazy. [39] Vytvoření Stop listu negative dictionary Další procedurou první fáze je vytvoření stop listu, jindy nazývaného jako negativní slovník. Stop list je seznam slov, které nenesou žádnou významnou informaci, zpravidla se jedná o spojky, předložky a části modálních sloves, případně varianty slovesa být. Během aplikace stop listu dochází k mazání těchto pro analýzu Stránka 13
15 irelevantních slov. Většinou se používá již vytvořený stop list pro určitý jazyk, ale není to pravidlem. Na webu lze najít velký počet již hotových stop listů, které obsahují standardní seznam spojek, předložek atd., které lze dále upravit pro individuální potřebu při té či oné analýze. [25] Nahrazování čísel Dalším, s čím je nutné se v některých případech vypořádat, je nahrazení čísel textem. Textové dokumenty docela často v sobě nesou informaci v podobě čísel, a právě tyto čísla mohou být těsně spojité s informací, kterou hledáme. [22] Zpravidla k tomu dochází při kombinaci data minignu a text miningu během analýzy rozsáhlé databáze, kde je důležité najit vztah čísel a volného textu. Pokud se jedna o volný nestrukturovaný text, nejde na analýzu použít data mining a současně většina textových analyzátoru nepozná v textovém řádku číselnou hodnotu. Bud ji nepřečte, nebo přeskočí jako hodnotu, která nenese v sobě význam. Proto je třeba použit metodu nahrazování čísel, která je jednou z technik předpracovaní textu. Tato technika převádí číselné hodnoty na text. Zůstává pouze informace o existenci čísla, nikoli jeho hodnotě. [40] Převedení dokumentů do jednotného formátu Skutečným problémem dnešní doby je celková roztříštěnost formátů a platforem, ve kterých jsou dokumenty ukládány. Nejedná se již pouze o notoricky známé formáty.doc,.pdf,.xml,.html,.txt,.rtf nebo.odt, ale i další exporty dokumentů například do formátů, které jsou dnes masivně využívané primárně ve čtečkách knih. Kvůli nim je vytvářen nespočet dalších, ne zrovna kompatibilních formátů, jako.epub,.fb2,.djvu,.azw,.opf,.tr2,.tr3 nebo.aeh. Samotné analýze tak musí předcházet převedení dokumentů do jednotného formátu. V případě, když je analyzován jeden dokument, by k žádným potížím s formátováním nemělo dojit. Problém vzniká až v případě zpracování několika dokumentů v různých formátech. Pokud databáze souborů pro analýzu obsahuje několik různých formátů dokumentů, muže dojít k chybě při zpracování dokumentů - zamítnutí/přerušení spouštění procesu analýzy, případně program některé formáty prostě nepřečte a přeskočí, což logicky vede ke ztrátě významných informací a tím také k oslabení relevantnosti výsledků. Abychom se vyhnuli těmto potížím, dokumenty se před analýzou převádí na jednotný program pomocí on-line nástrojů, případně specializovaných programů. Ale i tak může docházet k chybám, mezi nejčastější v případě češtiny patří problémy s diakritikou u převedeného textu. Znaky jsou často Stránka 14
16 vzhledem k použití nejednotného kódování u.pdf nahrazeny různými, pro češtinu neznámými symboly. Těmto problémům lze předejít odstraněním diakritiky z textu ještě před jeho převodem. Během zpracování textových dokumentů docela často nastává situace, že textový analyzátor neumí zpracovat text v českém jazyce kvůli diakritice. Důvodem je to, že v sobě nemá integrovanou českou znakovou sadu. Často při převedení dokumentu do jiného formátu a na výstupu dostaneme textový dokument s rozrušenou diakritikou. V takových případech je potřeba z dokumentu dostat text bez diakritických znamének bud manuálně, záměnou znaku za písmena bez diakritiky, nebo pomoci speciálních programu, případně online programu, obsahující funkce, které nahradí vybrané znaky za písmena bez diakritiky ( Existují i další možné úpravy textu ve stadiu předzpracovaní. Demonstrativní výčet je následující (Převzato z [24]): kontrola pravopisu filtrování termínů oprava u poškozeného přeposíláním převod textu na malá či velká písmena oprava textu vzniklého omylem zapnutým Caps Lockem získání čistého textu z kódu webové stránky vytvoření typograficky správného textu v HTML Analýza textu Druhou a nejvíce podstatnou fází textové analýzy je automatické analyzování nestrukturovaných textových dokumentů, získávání strukturované informace z daného dokumentu a její následný rozbor. Zkráceně v této části dochází k analýze předzpracovaného dokumentu a vygenerování termů. Termem se rozumí základní prvek, kterým jsou jednotlivá slova nebo sousloví, které slouží k analýze. [30] Objevení různých zákonitostí v textu a existence softwaru, který automatizuje proces odhalení takovýchto zákonitostí a poskytuje možnost hledání klíčových slov, rozpoznání druhu a obsahu textu nebo vytvoření stručného shrnutí dokumentu (abstraktu), aniž by byla potřeba ho číst. Prostředí textového analyzátoru je velmi různorodé a existuje množství různých způsobů dolování dat z textu. Text může být tak roztříděn podle témat, která danou oblast reprezentují, nebo mohou být vyhledána klíčová slova, případně může být vytvořen souhrn textu. Tato Stránka 15
17 fáze umožňuje roztřídit a transformovat nestrukturované informace do smysluplné podoby. Výběr vhodného způsobu analýzy, typ a podoba získané informace jsou velmi závislé na tématu zadaného požadavku. Nástroje k dosažení výsledků text analýzy jsou různorodé, například: text categorization (kategorizace textu), document clustering (shlukování dokumentů), document filtering, (filtrování dokumentů) duplication detection (detekce duplikace), information extraction (extrakce informací), text summarization (sumarizace textů) atd Jednotlivé úlohy analýzy textu Kategorizace textů (Text categorization) Text categorization, česky nazývaná prostým překladem kategorizací textů je úkol zadaný softwaru, který určuje druh dokumentů podle obsahu, tématu, názvů nebo klíčových slov, a poté je organizuje, to znamená, třídí dokumenty do předem definovaných kategorií (např. politika, ekonomika, sport) [12] [29] Každý text může být přiřazen výlučně do jedné kategorie, nebo také k více kategoriím, případně nezařazen nikam. Typicky je toto provedeno pomocí četnosti výskytu slov v textu, nebo klasickou metodou roztřídění podle stejného názvu dokumentu. Kategorizace textů může být použita pro takový typ dokumentů, jako novinové články, y, webové stránky atp. Automatické detekce tématu dokumentu může být využito při správě rozsáhlých úložišť, při eliminaci nevyžádané pošty nebo pro odfiltrování stránek nevhodného obsahu (například pomocí rodičovského filtru na PC). Tuto úlohu lze využít i při analýze webového průzkumu nebo reklamací, kdy software sám roztřídí typ odpovědí na kladné, záporné a irelevantní, případně podle dalších znaků. Příslušné oddělení se pak efektivně zabývá pouze odpověďmi, které mají informační hodnotu a nad ostatními neztrácí čas. Shlukování textů (text clustering) Jedním z dalších způsobů analýzy je identifikace textových dokumentů pomocí shlukové analýzy. Lze říci, že shlukování textů je proces seskupování dokumentů na základě vzájemné podobnosti. Jeden z prvních, kdo tento pojem nazval, pokusil se definovat a také poprvé použil, byl Kalifornský profesor psychologie R. C. Tryon. Ten v roce 1939 publikoval knihu Shluková analýza. Pojem definoval takto: Shluková analýza je obecný logický postup formulovaný jako procedura, pomocí níž seskupujeme objektivně jedince do skupin na základě jejich podobností a rozdílností. [35] Stránka 16
18 Shlukovou analýzou textů rozumíme proces, který používá různé algoritmy k uspořádání a sloučení dat s podobným významem do skupiny (shluku). Praktickým výsledkem je dělení všech dokumentů na skupiny, ve kterých jsou shlukovány nejvíce podobné dokumenty podle jejich příbuznosti obsahu a zadaných parametrů. Shluková analýza zabezpečuje, aby v jednotlivém shluku byly zařazené dokumenty co nejvíce podobné, a současně také, aby jednotlivé shluky byly co nejvíce odlišné od shluků ostatních. Cílem shlukové analýzy je tak rozlišení množin (clusterů), ve kterých je podobnost s jinými clustery minimální, a současně vnitřní podobnost clusteru maximální. [17] Ze samotné podstaty shlukové analýzy je zřejmé, že každý analyzovaný dokument musí být zařazen do jedné skupiny. Pokud je pro rozlišení použit obsah dokumentů, pak různé skupiny korespondují s různými náměty a tématy obsaženými v tomto souboru dokumentů (k identifikaci námětu/ tématu skupiny shlukové nástroje používají slova, která jsou běžná v dokumentech dané skupiny). Obrázek 1 - převzat z [36] Obrázek ukazuje jednotlivé textové záznamy (dokumenty, formuláře, žádosti atd.), které byly podrobeny analýze. Záznamy, které jsou mimo hlavní shluk, se nějakým způsobem od většiny dokumentů odlišují, a proto by jim mělo věnovat pozornost. [36] Shlukování textů je do jisté míry podobné textové kategorizaci, popsané v předchozím odstavci. Rozdílem je, že proces kategorizace dokumentu dokumenty roztřídí do předem stanovených skupin, naopak text clustering jednotlivé dokumenty na základě vzájemné podobnosti a klíčová slova extrahuje přímo z textu. Problémem se může ukázat, že vytvořené kategorie na základě náplně dokumentu nemusí vždy logicky odpovídat kategoriím, tak jak by je vytvořil člověk. Potom se stává to, že sportovní výsledky mohou spadat do stejné kategorie jako například ekonomické ukazatele, protože obsahují nadprůměrné množství čísel. Proto je také nutné, aby s text minerem pracoval odborník a zadával mu co nejkonkrétnější příkazy. Pro správnou operaci Stránka 17
19 existují speciálně vyvinuté algoritmy, kterými se ovšem nebudu zabývat, neboť práce není matematicky zaměřená. Analýza sentimentu Analýza sentimentu (sentiment analysis) člení dokumenty podle emočního obsahu do třech skupin: pozitivní (positive), negativní (negative) a neutrální (neutral). Během člověkem vytvořeného textového záznamu pracuje software podle citově zabarvených slov, případně podle toho, jaká slova obecně jsou použita v dokumentu. Analýzou textu lze usoudit mnoho informací o autorovi, nejen jeho postoj, ale i věk, pohlaví, myšlení, postoj k adresátovi, nebo do určité míry i vzdělanost. Většinou se hodnotí sentiment podle použití expresivních slov pokud jsou použita nadprůměrně, jsou následně rozdělena mezi pozitivní a negativní a stejně tak je definován text. Pokud je jejich výskyt v nízké míře, je text kategorizován jako neutrální. [5] Shrnutí textu Dalším způsobem analýzy může být shrnutí textu, tedy text summary. Tato analýza se velmi dobře uplatní, pokud se zpracovává rozsáhlý textový dokument v krátkém čase. Manuálně všechen text přečíst a porozumět mu je občas mimo časové možnosti. Právě pomocí automatického nástroje text miningu lze vytvořit shrnutí originálních rozsáhlých dokumentů, případně shrnovat uživatelem nastavené části (sekce, odstavce). [21][16] Princip shrnování textu je, že software skenuje text pomocí metody summary extraction a z daného dokumentu vybírá nejdůležitější části důležitost je zpravidla definována uživatelem, ale není to podmínkou. Definice probíhá tak, že uživatel stanoví takzvané koncepty, kterými jsou regulární výrazy nebo gramatická pravidla a dle nich pak text miner prohledá všechny dokumenty. Takovýto postup je vhodný za předpokladu, že víme, co je pro nás důležité a nechceme číst velké množství textu, abychom zjistili co nejvíce informací o oblasti zájmu. [34] Software tak najde požadované informace automaticky a výstupem bude smysluplná informace vytěžená s rozsáhlého textového dokumentu. Konkrétním příkladem softwaru může být třeba SAS text summarization. [27] Existuje ještě jeden podobný způsob shrnování textu. Jedná se o summary abstraction. Tato metoda poskytuje lepší výsledky, text je hlouběji analyzován, kdy na základě jeho sémantické reprezentace je parafrázován obsah. Problémem je však, že se Stránka 18
20 jedná o čistě strojovou úpravu a výsledné generování souvislého textu není na takové úrovni, aby dosahovalo srozumitelnosti výstupu po použití text summary. [16] Extrakce informací Pojem extrakce informací většinou znamená převedení nestrukturovaného nebo částečně strukturovaného textu do strukturované podoby. Obecně se tak jedná o princip předzpracování, ale může být i jednou z metod samotné textové analýzy. V tomto smyslu nabývá zcela jiný význam, sice spočívá v identifikace jednotlivých klíčových komponent v textu a jejich vzájemných vztahů. Z textových dokumentů jsou tak extrahovány předem specifikované informace a ty jsou následně organizovány. Poté je generován strukturovaný soubor informací, se kterým lze vykonávat další operace. [30] Celý tento proces funguje na principu skenování textu za účelem nahrazení určitých slov a výrazů takzvanými nálepkami pojmu. Poté již se jen odkazuje na tyto nálepky pojmů a získávají se strukturovaná data. Pro celý proces je klíčové, aby v textu bylo možné rozpoznat jména lidí, organizací, míst atd. [19] Extrakce konceptů; rozpoznání pojmenovaných entit Tento způsob extrakce určuje entity k různým variacím pojmenování entity. Pokud bude například v článku zmíněn americký prezident, pak i jeho jméno, případně pojem prezident USA bude přiřazen stejné entitě. Zpracování těchto výrazů je jedním z největších problémů při zpracování přirozeného jazyka. (Labský, Svátek, 2007) [19] [30] Určení vztahu mezi entitami Po správném určení entit následuje další složitý úkon. Na základě analýzy vět a rozpoznání entit lze definovat a rozpoznat vztahy mezi entitami. [30] Pokud se v textu objeví informace, že Dagmar Veškrnová se vdala za Václava Havla, pak je text miner schopen definovat entitu prezidentovy manželky, nebo správně zařadit Dagmar Havlovou do této entity. Současně již zůstane definován vztah mezi těmito dvěma enenitami, tedy prezidentem a jeho manželkou. S touto problematikou také souvisí rozpoznání jmen (name recognition). Nejedná se pouze o jména osob, ale i o geografické lokace, společnosti a organizace, jména produktů, umělecká díla, sportovní kluby, skupiny, atd.). Správné použití rozpoznání jmen je klíčové, protože v textu se často software potýká se s problémem mnohoznačnosti, a na rozdíl od člověka slovo tak snadno logicky nepřiřadí pod správnou skupinu, případně entitu. [23] Stránka 19
Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace
VíceDolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
VíceTovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje
jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových
VícePRODUKTY. Tovek Tools
jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.
VíceTovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale
je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně vyhledávat informace,
VíceVývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz
Vývoj moderních technologií při vyhledávání Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz INFORUM 2007: 13. konference o profesionálních informačních zdrojích Praha, 22. - 24.5. 2007 Abstrakt Vzhledem
VícePRODUKTY Tovek Server 6
Tovek Server je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených strukturovaných i nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně
VícePRODUKTY. Tovek Tools
Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních
Vícewebmarketin Základní moduly aplikace
webmarketin Aplikace webmarketing je komplexní online nástroj určený pro podporu a řízení marketingu a CRM ve společnosti. Její součástí jsou webové ankety, SMS kampaně nebo newslettery, které lze spravovat
VícePOSUDEK VEDOUCÍHO BAKALÁŘSKÉ PRÁCE
POSUDEK VEDOUCÍHO BAKALÁŘSKÉ PRÁCE Jméno studenta Branný Jan Název práce Jméno vedoucího práce Jméno oponenta práce Realizace modulárního CMS pro digitální agentury Ing. David Hartman Ph.D. Ing. Lukáš
VíceOntologie. Otakar Trunda
Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba
VíceDobývání znalostí z textů text mining
Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro
VíceInovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.
Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky Ing. Jan Ministr, Ph.D. I. Úvod Agenda II. Customer Intelligence (CI),zpracování dat z Internetu III. Analýza obsahu IV.
VíceÚvod. Klíčové vlastnosti. Jednoduchá obsluha
REQUESTOR DATASHEET Úvod Requestor Service Desk poskytuje kompletní řešení pro správu interních i externích požadavků, které přicházejí do organizace libovolnou cestou. Produkt je zaměřen na vytvoření
VíceABBYY Automatizované zpracování dokumentů
ABBYY Automatizované zpracování dokumentů tradiční řešení OCR versus Cloud Jiří Dvořák ECM konzultant Světový leader v produktech pro zpracování dokumentů Individulání uživatelé Malé a střední společnosti
VíceHROMADNÉ ÚPRAVY NAJÍT A NAHRADIT
HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT Funkce Najít a nahradit slouží k rychlému vyhledávání určitých slov a jejich nahrazování jinými slovy. Lze hledat i určité varianty slov a nahrazovat je buď hromadně (všechny
VíceObsah ČÁST I JAK SE UCHÁZET O ZÁKAZNÍKY NA WEBU KAPITOLA 1
Obsah O autorech 11 Poděkování 13 Předmluva 15 Úvod 17 Proč byste se měli přečíst tuto knihu 17 Co tato kniha obsahuje 18 Jak používat tuto knihu 19 Zpětná vazba od čtenářů 20 Errata 20 ČÁST I JAK SE UCHÁZET
VíceINFORMATIKA. Libovolná učebnice k MS OFFICE 200x (samostatné učebnice k textovému procesoru MS Word 200x, tabulkovému procesoru MS Excel 200x).
Cíl předmětu: Cílem předmětu je prohloubit znalosti studentů ze základních aplikačních programů. Jedná se především o pokročilejší nástroje z aplikací MS Word a MS Excel. Jednotlivé semináře se zaměřují
VícePředmluva 11 Typografická konvence použitá v knize 12. 1 Úvod do Excelu 2003 13
Předmluva 11 Typografická konvence použitá v knize 12 1 Úvod do Excelu 2003 13 Spuštění a ukončení Excelu 14 Spuštění Excelu 14 Ukončení práce s Excelem 15 Přepínání mezi otevřenými sešity 16 Oprava aplikace
VíceTabulkový procesor. Základní rysy
Tabulkový procesor Tabulkový procesor je počítačový program zpracovávající data uložená v buňkách tabulky. Program umožňuje použití vzorců pro práci s daty a zobrazuje výsledné hodnoty podle vstupních
VíceMicrosoft.NET. AppTima Feedback Solution - komplexní systém pro zjišťování a vyhodnocování spokojenosti zákazníků
Microsoft.NET AppTima Feedback Solution - komplexní systém pro zjišťování a vyhodnocování spokojenosti zákazníků Přehled Země: Velká Británie Odvětví: Informační technologie Profil zákazníka Pantek Ltd.
VícePracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů
VíceZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14
ZÁKLADY PROGRAMOVÁNÍ Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 Co je vhodné vědět, než si vybereme programovací jazyk a začneme programovat roboty. 1 / 13 0:40 Implementace Umělá inteligence (UI) Umělá inteligence
Více5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA
5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA 5. 15. 1 Charakteristika předmětu A. Obsahové vymezení: IVT se na naší škole vyučuje od tercie, kdy je cílem zvládnutí základů hardwaru, softwaru a operačního systému,
VíceObsah. Zpracoval:
Zpracoval: houzvjir@fel.cvut.cz 03. Modelem řízený vývoj. Doménový (business), konceptuální (analytický) a logický (návrhový) model. Vize projektu. (A7B36SIN) Obsah Modelem řízený vývoj... 2 Cíl MDD, proč
VícePříprava dat v softwaru Statistica
Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,
VíceVyužití tabulkového procesoru MS Excel
Semestrální práce Licenční studium Galileo srpen, 2015 Využití tabulkového procesoru MS Excel Ing Marek Bilko Třinecké železárny, a.s. Stránka 1 z 10 OBSAH 1. ÚVOD... 2 2. DATOVÝ SOUBOR... 2 3. APLIKACE...
VíceKontingenční tabulky v MS Excel 2010
Kontingenční tabulky v MS Excel 2010 Autor: RNDr. Milan Myšák e-mail: milan.mysak@konero.cz Obsah 1 Vytvoření KT... 3 1.1 Data pro KT... 3 1.2 Tvorba KT... 3 2 Tvorba KT z dalších zdrojů dat... 5 2.1 Data
VíceQAD CRM. Vladimír Bartoš. konzultant
QAD CRM Vladimír Bartoš konzultant Integrace QAD CRM QAD EA Artikly Adresy Nabídky Prodejní objednávky Instalovaná báze Servisní volání Servisní kontrakty Servisní nabídky Nabídky volání Měny Uživatelé
VíceUŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0
UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0 OBSAH 1 ÚVOD... 3 1.1 HOME STRÁNKA... 3 1.2 INFORMACE O GENEROVANÉ STRÁNCE... 4 2 VYHLEDÁVÁNÍ V ÚZEMÍ...
VíceStudie webů automobilek
Studie webů automobilek červen 2006 [manažerské shrnutí] Obsah Obsah... 1 Manažerské shrnutí... 2 Kvalita obsahu a použitelnost webu... 3 Základní nedostatky negativně ovlivňují použitelnost většiny webů...
VíceZpráva o zhotoveném plnění
Zpráva o zhotoveném plnění Aplikace byla vytvořena v souladu se Smlouvou a na základě průběžných konzultací s pověřenými pracovníky referátu Manuscriptorium. Toto je zpráva o zhotoveném plnění. Autor:
VícePřístupy k řešení a zavádění spisové služby
Přístupy k řešení a zavádění spisové služby Miroslav Kunt Praha, 22. 3. 2016 Výběr SSl důležité okolnosti Je potřeba zájem vedení organizace, kompetentní pracovníci spisové služby, co největší přiblížení
VíceIntraDoc. Řešení pro státní správu a samosprávu. http://www.inflex.cz
Motivace IntraDoc Řešení pro státní správu a samosprávu http://www.inflex.cz Naším cílem je nabídnout pracovníkům úřadu efektivní a do detailu propracovanou podporu procesů a správu dokumentů spojených
VíceMicrosoft Word základní
Časový rozsah: 2 dny (8:30-14:00) Cena: 2400 Kč + DPH Microsoft Word základní Tvorba kratších dokumentů se zaměřením na korespondenci. Základy tvorby a formátování písma a odstavců. Vkládání tabulek a
VíceIng. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
VíceOdborný článek. Petr Klán, VŠE v Praze, IMRAD Introduction, Material and Method, Results, Discussion
Odborný článek Petr Klán, VŠE v Praze, petr.klan@vse.cz Části odborného článku IMRAD Introduction, Material and Method, Results, Discussion NADPIS Do 10 slov Autor (autoři) Jméno, adresa, e-mail Abstrakt
VíceInformační média a služby
Informační média a služby Výuka informatiky má na Fakultě informatiky a statistiky VŠE v Praze dlouholetou tradici. Ke dvěma již zavedeným oborům ( Aplikovaná informatika a Multimédia v ekonomické praxi
VíceJak používat statistiky položkové v systému WinShop Std.
Jak používat statistiky položkové v systému WinShop Std. Systém WinShop Std. využívá k zápisům jednotlivých realizovaných pohybů (příjem zboží, dodací listy, výdejky, převodky, prodej zboží na pokladně..)
VíceKdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie. Předmět: PLIN08 Projekty II. Semestr: Jaro 2015
Kdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie Předmět: PLIN08 Projekty II Semestr: Jaro 2015 Vedoucí projektu: Mgr. Marek Grác, Ph.D. Úkolem tohoto projektu bylo vytvořit
VíceInformační systém řešící rozvrhování
AIP Scholaris 1(1), 2012, 15 21, ISSN 1805-613X Online: scholaris.vse.cz Informační systém řešící rozvrhování Petra Procházková 1 1 Fakulta informatiky a statistiky, Vysoká škola ekonomická v Praze nám.
VíceDigitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.
Digitalizace a oběh dokumentů Automatizace obchodních porcesů Likvidace odběratelských a dodávatelských faktur Efektivita firemních procesů je jedním ze základních pilířů fungování celé společnosti. Některé
VíceZŠ a MŠ, Brno, Horníkova 1 - Školní vzdělávací program
4.3. Informační a komunikační technologie Charakteristika předmětu Vzdělávací oblast je realizována prostřednictvím vyučovacího předmětu Informatika. Informatika je zařazena do ŠVP jako povinný předmět
VíceTypy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu
StatSoft Typy souborů ve STATISTICA Tento článek poslouží jako přehled hlavních typů souborů v programu STATISTICA, ukáže Vám jejich možnosti a tím Vám dovolí využívat program efektivněji. Jistě jste již
VíceModulární systém dalšího vzdělávání pedagogických pracovníků JmK v přírodních vědách a informatice CZ.1.07/1.3.10/ Brožura dobré praxe
Modulární systém dalšího vzdělávání pedagogických pracovníků JmK v přírodních vědách a informatice CZ.1.07/1.3.10/02.0024 Brožura dobré praxe Informatika 1 Brožura dobré praxe informatika Materiál shrnuje
VíceVyhledávání na Internetu
Tento materiál byl napsán za využití učebních materiálů ke Kurzu práce s informacemi (KPI11) vyučovaném v roce 2007 na Masarykově univerzitě. Autory kurzu jsou: PhDr. Petr Škyřík, Mgr. Petra Šedinová,
VíceNeuralmarketing Inteligentní newsletter
Nabídka jednorázové rozesílky a doplňkových služeb Neuralmarketing Inteligentní newsletter Nabídka jednorázové rozesílky a doplňkových služeb 2 Obsah 1 Příprava rozesílky... 3 2 Rozesílka... 4 3 Zpracování
VíceZávislost na počítačových hrách u žáků druhého stupně vybraných základních škol
POSUDEK BAKALÁŘSKÉ / MAGISTERSKÉ PRÁCE OPONENT Název Závislost na počítačových hrách u žáků druhého stupně vybraných základních škol Autor Bc. Jiří Zatřepálek Vedoucí práce Mgr. Jaroslav Vacek Oponent
Víceplussystem Příručka k instalaci systému
plussystem Příručka k instalaci systému Tato příručka je určena zejména prodejcům systému a případně koncovým uživatelům. Poskytuje návod, jak provést potřebná nastavení komponent. ITFutuRe s.r.o. 26.2.2015
VíceAplikace pro srovna ní cen povinne ho ruc ení
Aplikace pro srovna ní cen povinne ho ruc ení Ukázkový přiklad mikroaplikace systému Formcrates 2010 Naucrates s.r.o. Veškerá práva vyhrazena. Vyskočilova 741/3, 140 00 Praha 4 Czech Republic tel.: +420
VíceMBI - technologická realizace modelu
MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,
VíceVzdělávací obsah vyučovacího předmětu
V.9.3. Vzdělávací obsah vyučovacího předmětu Vzdělávací oblast: Inormatika a informační a komunikační technologie Vyučovací předmět: Informatika Ročník: 1. ročník + kvinta chápe a používá základní termíny
VíceVytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová 5. Statistica StatSoft, Inc., http://www.statsoft.com, http://www.statsoft.cz. Verze pro Mac i PC, dostupná
VícePorovnání rychlosti mapového serveru GeoServer při přístupu k různým datovým skladům
Porovnání rychlosti mapového serveru GeoServer při přístupu k různým datovým skladům Bakalářská práce 2014 Autor: Adam Schreier Garant práce: Jan Růžička Obsah prezentace 1.Seznámení s řešeným problémem
VíceNázev Autor Jitka Debnárová Vedoucí práce Mgr. Petra Vondráčková, Ph.D. Oponent práce Mgr. Lenka Reichelová
Název Autor Jitka Debnárová Vedoucí práce Mgr. Petra Vondráčková, Ph.D. Oponent práce Mgr. Lenka Reichelová Vztahová vazba u osob se závislostí na pervitinu POSUDEK BAKALÁŘSKÉ / MAGISTERSKÉ PRÁCE VEDOUCÍ
VíceNázev materiálu: Open Office
Základní škola Nový Bor, náměstí Míru 128, okres Česká Lípa, příspěvková organizace e-mail: info@zsnamesti.cz; www.zsnamesti.cz; telefon: 487 722 010; fax: 487 722 378 Registrační číslo: CZ.1.07/1.4.00/21.3267
VícePHP framework Nette. Kapitola 1. 1.1 Úvod. 1.2 Architektura Nette
Kapitola 1 PHP framework Nette 1.1 Úvod Zkratka PHP (z anglického PHP: Hypertext Preprocessor) označuje populární skriptovací jazyk primárně navržený pro vývoj webových aplikací. Jeho oblíbenost vyplývá
VíceDatová kvalita. RNDr. Ondřej Zýka
Datová kvalita RNDr. Ondřej Zýka 1 Datová kvalita Jedna z kompetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě potřebné k jejich činnosti Kvalita dat: Subjektivní pojem závislý na požadavcích
VíceIng. Pavel Rosenlacher
Marketing v sociálních sítích Webová analytika Ing. Pavel Rosenlacher pavel.rosenlacher@vsfs.cz Krátké shrnutí SEO spočívá v lepším zobrazování stránek ve výsledcích vyhledávání na vyhledávačích Souhrnně
Více2013 IBM Corporation
2013 IBM Corporation Connections v praxi Jak vypadá nasazení Social software v praxi MICHAL HOLOUBEK Social Business konzultant, oxy Online, s.r.o. 2013 IBM Corporation Agenda Úvod Zadání a specifikace
VíceGymnázium Jiřího Ortena, Kutná Hora
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Informatika a výpočetní technika (IVT) Úvod do předmětu, základní pojmy IVT, operační systém MS Windows, Internet, netiketa, číselné soustavy a uložení dat
VíceNápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání
1 z 5 Nápověda 360 Search Co je 360 Search? 360 Search je metavyhledávač, který slouží k paralelnímu prohledávání všech dostupných informačních zdrojů prostřednictvím jednotného rozhraní. Nástroj 360 Search
VícePříprava na vysoké školy technických oborů, reg. č. CZ.1.07/1.1.04/03.0012
Evaluační zpráva Příprava na vysoké školy technických oborů, reg. č. CZ.1.07/1.1.04/03.0012 Zpracovatel: PPŠ institut celoživotního vzdělávání Přerov, s.r.o. Přerov, 2012 Termín sběru dat: 6. 3. 2012 22.
VíceČESKÉ VYSOKÉ UČENÍ TECHNICKÉ
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA ELEKTROTECHNICKÁ A4M39NUR Hierarchické číselníky Část D1: Autoři: Uživatelský průzkum a analýza Martin Hofman hofmama3 Tomáš Markacz markatom 1 Obsah dokumentu Účel
VíceOptimiDoc dokáže takové dokumenty zpracovat a distribuovat napříč firmou.
Automatizujte zpracování a distribuci dokumentů do vašich firemních procesů! Nemáte kontrolu nad stovkami papírových dokumentů, které přichází do vaší firmy? OptimiDoc dokáže takové dokumenty zpracovat
Více5.3.1. Informatika pro 2. stupeň
5.3.1. Informatika pro 2. stupeň Charakteristika vzdělávací oblasti Vzdělávací oblast Informační a komunikační technologie umožňuje všem žákům dosáhnout základní úrovně informační gramotnosti - získat
VíceUživatelská podpora v prostředí WWW
Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,
VíceSoftware programové vybavení. 1. část
Software programové vybavení 1. část Software Vše co není HW je SW = pojem se někdy vztahuje jak na programy, tak na data Oživuje hardware (zdaleka ne jen počítače) Je-li přítomen procesor, musí být i
VíceModerní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
VíceCestovní zpráva. Program akce: Průběh akce. O Anopress
Cestovní zpráva Pracovník: Jiří Fišer Akce: Školení o obsluze databází z programu VISK8-A Datum konání: 4. 4. 2016 Místo konání: Praha, Národní knihovna Klíčová slova: Anopress -- vyhledávání -- tisk --
VíceObsah KAPITOLA 1 Několik slov o Wordu 2007 9
KAPITOLA 1 Několik slov o Wordu 2007 9 Pás karet 10 Další možnosti ovládání Wordu 12 Nastavení Wordu 13 Ovládání Wordu 2007 klávesnicí 14 KAPITOLA 2 Základní operace 17 Základní nastavení 17 Rozdělení
VíceDODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM Č. 3. Zadavatel: Název veřejné zakázky: Česká republika Ministerstvo zemědělství
Zadavatel: Česká republika Ministerstvo zemědělství Název veřejné zakázky: Vytvoření nového informačního systému MZe pro výzkum a vývoj - "VÝZKUM-AGRI" Sídlem: Těšnov 65/17, 110 00 Praha 1 Nové Město Evidenční
VíceDESET LET S THESES.CZ Ing. Jitka Brandejsová
DESET LET S THESES.CZ Ing. Jitka Brandejsová OBECNÉ KONCEPTY Plagiát vs. software pro detekci podobností Cílem je kvalitnější vzdělání Schopnost práce s textem. Schopnost práce s citacemi. Akademická čest
VíceE-mailové kampaně. 2013 Byznys CRM s.r.o.
E-mailové kampaně 2013 Byznys CRM s.r.o. Zákazník: Dne: 31. 5. 2015 Vytvořil: Pavel Šlesingr Schválil: Petr Hampejs Verze: 5.0 Emailové kampaně v CRM 2011 Strana 2 z 15 Obsah Obsah... 3 1. Popis... 4 1.1.
VíceUnstructured data pre-processing using Snowball language
Unstructured data pre-processing using Snowball language Předzpracování nestrukturovaných dat pomocí jazyka Snowball Bc. Pavel Řezníček, doc. Ing. František Dařena, PhD., Ústav informatiky, Provozně ekonomická
VíceMicrosoft Access tvorba databáze jednoduše
Microsoft Access tvorba databáze jednoduše Časový rozsah: 2 dny (9:00-16:00) Cena: 3300 Kč + DPH Úvod do relačních databází. Funkce databázových objektů Microsoft Access. Návrh tabulek, definice základních
VíceProjekt informačního systému pro Eklektik PRO S EK. Řešitel: Karolína Kučerová
Projekt informačního systému pro Eklektik PRO S EK Řešitel: ÚVODNÍ ZPRÁVA ZADÁNÍ PROJEKTU Zefektivnění komunikace ve firmě Eklektik, a to především v oblasti informací o klientech a o tištěných materiálech
VíceCo je nového v aplikaci PaperPort 12?
Vítejte! Aplikace PaperPort společnosti Nuance je softwarový balíček pro správu dokumentů pracovní plochy, který vám usnadní skenování, uspořádání, sdílení, správu a přístup k papírovým a digitálním dokumentům
Víceicc Next Generation atlantis Copyright 2011, atlantis
icc Next Generation atlantis Copyright 2011, atlantis Zaměření icc zdravotnická zařízení výrobní podniky instituce a samospráva jednotky až stovky agentů malé, střední a velké organizace kontextově zaměřený
VíceCloudové služby kancelářského softwaru hostované společností Microsoft Kvalitní nástroje pro firemní nasazení za přijatelnou cenu Vždy aktuální verze
Cloudové služby kancelářského softwaru hostované společností Microsoft Kvalitní nástroje pro firemní nasazení za přijatelnou cenu Vždy aktuální verze Office, e-mail, sdílení dokumentů, videokonference
Více1 Webový server, instalace PHP a MySQL 13
Úvod 11 1 Webový server, instalace PHP a MySQL 13 Princip funkce webové aplikace 13 PHP 14 Principy tvorby a správy webového serveru a vývojářského počítače 14 Co je nezbytné k instalaci místního vývojářského
VíceSystémy pro podporu rozhodování. Hlubší pohled 2
Systémy pro podporu rozhodování Hlubší pohled 2 1 Připomenutí obsahu minulé přednášky Motivační příklad Konfigurace DSS Co to je DSS? definice Charakterizace a možnosti DSS Komponenty DSS Subsystém datového
VíceDolování dat z dotazníků. Ondřej Takács
Dolování dat z dotazníků Ondřej Takács Úvod Součást projektu, který se zabývá individualizovaným e-learningem virtuální učitel, který svůj výklad přizpůsobuje statickým či dynamicky se měnícím vlastnostem
VíceVyučovací předmět: PRAKTIKA Z INFORMATIKY. A. Charakteristika vyučovacího předmětu. a) Obsahové, časové a organizační vymezení předmětu
Vyučovací předmět: PRAKTIKA Z INFORMATIKY A. Charakteristika vyučovacího předmětu. a) Obsahové, časové a organizační vymezení předmětu Časové vymezení vyučovacího předmětu praktika z informatiky je podle
VíceObsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9
Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................
VíceAnalýza staročeské morfologie v Excelu
Analýza staročeské morfologie v Excelu B O R I S L E H E Č K A, B O R I S @ D A L I B O R I S. C Z O D D Ě L E N Í V Ý V O J E J A Z Y K A Ú S T A V P R O J A Z Y K Č E S K Ý A V Č R L I N G V I S T I
VíceBig Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.
Big Data a oficiální statistika Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc. Obsah příspěvku Charakteristiky Big Data Výzvy a úskalí z perspektivy statistiky Výzvy z perspektivy computing
VíceEfektivní práce s Excelem (středně pokročilí uživatelé)
2015 Efektivní práce s Excelem (středně pokročilí uživatelé) rozsah: 2 dny (10 hodin) Mgr. Jiří Číhař www.dataspectrum.cz Efektivní práce s Excelem pro středně pokročilé uživatele Práce s rozsáhlými tabulkami
VíceCloudové služby kancelářského softwaru hostované společností Microsoft Kvalitní nástroje pro firemní nasazení za přijatelnou cenu Vždy aktuální verze
Cloudové služby kancelářského softwaru hostované společností Microsoft Kvalitní nástroje pro firemní nasazení za přijatelnou cenu Vždy aktuální verze Office, e-mail, sdílení dokumentů, videokonference
VíceAntiplagiátorské nástroje pro naše repozitáře
Antiplagiátorské nástroje pro naše repozitáře Jan Mach Vysoká škola ekonomická v Praze Univerzita Karlova v Praze 23. 10. 2013 Seminář ke zpřístupňování šedé literatury Co je plagiát? 1. klonování vydávání
VíceFINANČNÍ KONSOLIDACE TEORIE A PRAKTICKÁ REALIZACE PROSTŘEDNICTVÍM INFORMAČNÍCH SYSTÉMŮ
FINANČNÍ KONSOLIDACE TEORIE A PRAKTICKÁ REALIZACE PROSTŘEDNICTVÍM INFORMAČNÍCH SYSTÉMŮ Ing. Milan Bartoš Capgemini Sophia s.r.o. member of the Capgemini Group Abstrakt Cílem článku je představit teoreticky
VíceDatová věda (Data Science) akademický navazující magisterský program
Datová věda () akademický navazující magisterský program Reaguje na potřebu, kterou vyvolala rychle rostoucí produkce komplexních, obvykle rozsáhlých dat ve vědě, v průmyslu a obecně v hospodářských činnostech.
VíceThe bridge to knowledge 28/05/09
The bridge to knowledge DigiTool umožňuje knihovnám vytvářet, administrovat, dlouhodobě uchovávat a sdílet digitální sbírky. DigiTool je možno využít pro institucionální repozitáře, sbírky výukových materiálu
VíceSouborové systémy a logická struktura dat (principy, porovnání, příklady).
$TECH 13 Str. 1/5 Souborové systémy a logická struktura dat (principy, porovnání, příklady). Vymezení základních pojmů Soubor První definice: označuje pojmenovanou posloupnost bytů uloženou na nějakém
VíceALGORITMIZACE A PROGRAMOVÁNÍ
Metodický list č. 1 Algoritmus a jeho implementace počítačovým programem Základním cílem tohoto tematického celku je vysvětlení pojmů algoritmus a programová implementace algoritmu. Dále je cílem seznámení
VíceProjekt IMPLEMENTACE ŠVP
Střední škola umělecká a řemeslná Evropský sociální fond "Praha a EU: Investujeme do vaší budoucnosti" Projekt IMPLEMENTACE ŠVP Evaluace a aktualizace metodiky předmětu Německý jazyk Obory nástavbového
VícePŘÍLOHA C Požadavky na Dokumentaci
PŘÍLOHA C Požadavky na Dokumentaci Příloha C Požadavky na Dokumentaci Stránka 1 z 5 1. Obecné požadavky Dodavatel dokumentaci zpracuje a bude dokumentaci v celém rozsahu průběžně aktualizovat při každé
Více