Natalya Chernykh. Bakalářská práce

Rozměr: px
Začít zobrazení ze stránky:

Download "Natalya Chernykh. Bakalářská práce"

Transkript

1 Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze Natalya Chernykh Analýza textu (text mining) pomocí vybraného softwaru Bakalářská práce 2012

2 Poděkování Ráda bych věnovala poděkování Ing. Stanislavě Hruškové Ph.D, za podporu a trpělivost při psaní této bakalářské práce. Stránka 1

3 Prohlašuji, že jsem bakalářskou práci na téma Analýza textu (text mining) pomocí vybraného softwaru zpracovala samostatně a použila pouze zdrojů, které cituji a uvádím v seznamu použité literatury. V Praze dne Podpis Stránka 2

4 Obsah: 1. Úvod: Teoretická část Podstata text miningu Využití- uplatnění Fáze textové analýzy: Předzpracování dat (preprocessing) Analýza textu Extrakce výsledek Praktická část Předpokládaný postup Postup analýzy textu Vyhledání a sběr podkladů Kritéria pro výběr software Výběr vhodného softwaru pro analýzu textu Použitý hardware a software Předpříprava analyzovaného vzorku Textová analýza Zpracování zadané úlohy Závěr Seznam citací: Seznam použité literatury a internetových zdrojů: Seznam příloh Stránka 3

5 Abstrakt: Cílem práce je analyzovat vybraným softwarem 100 posudků bakalářských prací a pomocí textové analýzy odhalit nejčastější chyby studentů, které jsou v posudcích zmiňovány oponenty. Bakalářská práce v teoretické části popisuje podstatu text miningu a jeho využití v praxi. Dále je zde popsán a vysvětlen samotný proces text miningu, jeho fáze a metody. V praktické části jsou uvedeny dostupné nástroje pro analýzu textu a použitý hardware a software. Samotný průběh všech fází textové analýzy pomocí vybraného softwarového nástroje Statistica 10 je podrobně popsán a doplněn obrázky z grafického rozhraní programu a výsledky jsou srovnány s výsledky manuální analýzy. V závěru jsou shrnuty a zhodnoceny veškeré poznatky, které je možné vyvodit z výsledků analýzy softwarem a uvedeno, jaké výhody a nevýhody přináší text miningu v návaznosti na výsledek práce. Klíčová slova: text mining, textová analýza, vyhledávání informací, extrakce informací, chyby Abstract: The aim of this thesis is to analyze by selected software 100 opinions bachelor theses using text analysis software to detect the most common mistakes of students mentioned in opponents checks. Theoretical part of bachelor thesis describes the essence of text mining and its application in practice. Furthermore, there is explained and described text mining process itself, and the phases of this method. In the practical part of thesis describes available tools for text analysis and HW/SW equipment used for analysis The progress of all phases of text analysis using software tool Statistica 10 is described in detail and accompanied by screenshots from the graphical interface. Statistica 10 results are compared with the results of manual analysis. In conclusion are summarized and evaluated all the information that can be deduced from the results of the analysis software and shown the advantages and disadvantages that bringing text mining following the outcome of the work. Stránka 4

6 Úvod: Analýza textu (text mining) pomocí vybraného softwaru V současné době, kdy drtivá většina dokumentů vzniká v elektronickém formátu, nabývají stále více na významu dovednosti a znalosti Business inteligence, mezi které patří i metody text miningu a data miningu. Právě text miningem a jeho konkrétním praktickým využitím se budu ve své práci zbývat. Téma analýza textu pomocí vybraného softwaru jsem zvolila z důvodu, že mě vždy zajímalo, zda je dostupný komplexní software, který by uměl analyzovat nejen samostatný textový soubor, ale i rozsáhlý vzorek textových souborů za účelem vyhledání nejčastěji se vyskytujících slov a slovních spojení, včetně synonym. Přínosná by byla i funkce obsahové analýzy, která poskytuje rychlý přehled o obsahu textového dokumentu bez nutnosti jej číst. Konkrétní zaměření, tedy předmět analýzy (100 posudků bakalářských prací), jsem zvolila proto, že je toto téma v souvislosti s bakalářskými pracemi vždy aktuální a často diskutované a správná interpretace analýzy bude zajisté přínosná nejen pro případné čtenáře této práce, ale bude mít nezanedbatelný vliv i na vlastní kvalitu vypracování bakalářské práce. Za cíl práce jsem si stanovila analýzu 100 posudků bakalářských prací vybraným text miningovým softwarem za účelem nalézt nejčastější chyby studentů při vypracovávání BP, respektive jaké chyby nejčastěji uvádějí vedoucí bakalářských prací. Tyto chyby budu následně systematizovat, přiřazovat k vyhledaným výrazům a slovním spojením synonyma a v závěru bude výstup komplexně statisticky popsán a výsledky zhodnoceny a shrnuty. Postup při řešení bakalářské práce bude chronologický. Po teoretickém zmapování problematiky, kde budou popsány principy text miningu, bude nalezen vhodný software pro analýzu vybraného vzorku posudků bakalářských prací. Kritéria na software budou stanovena tak, aby byl použitelný pro širokou skupinu uživatelů, měl by podporovat českou znakovou sadu, umět pracovat se synonymy a vyhledávat v textu pomocí různých metod. Další vedlejší kritéria budou specifikována v praktické části. V praktické části je rizikem, že nenajdu dostatečně vhodný software, který by splňoval všechny výše uvedené požadavky. Nicméně s touto alternativou počítám, a v případě, že software nebude dostatečně schopný obsáhnout všechny uvedené funkce, použiji pravděpodobně časově velmi náročné manuální statistické zpracování dat za použití standardního kancelářského softwaru (MS Excel). Manuální zpracování však bude následovat i po úspěšném použití softwaru, neboť je nutné pravdivost výsledků ověřit. Stránka 5

7 Teoretická část. 2.1 Podstata text miningu Spolu s masivní elektronizací dokumentů ve všech sférách lidských činností začalo v letech nedávno minulých docházet k masivnímu nárůstu množství dat uložených v elektronické podobě. Přibližně 80 procent dat uložených v nejrůznějších databázích má podobu textu, je tedy v podobě nestrukturovaných dat.[36] Všechny tyto data jsou výsledkem práce webových vyhledávačů, blogů, různých anket, výzkumů, reakcí zákazníků, softwarových nástrojů, tedy jsou produktem jak přímé lidské činnosti, tak také činnosti různých robotů a strojů, kteří generují v reálném čase velké množství textových dat. Například internetové vyhledávače jako nebo vygenerují denně tolik informací, že by z nich bylo možno sestavit několik milionů knih. Dalším příkladem může být počet ů. Odhaduje se, že počet ů, který projde denně všemi typy počítačových sítí je 62 miliard. [18] To jsou stovky gigabajtů textu. Informace obsažené obecně v těchto, tedy nejen rozesílaných, dokumentech, by se přitom daly vyjádřit mnohem stručněji, protože klíčová informace, kterou tyto dokumenty nesou je podstatně menší. Přečíst a manuálně provést analýzu tak obrovského kvanta dat je nemožné, avšak tyto textové informace v sobě obsahují zpravidla údaje, jejichž využití pomůže získat komplexní obraz o daném bodu zájmu a zvýšit v tomto směru také efektivitu rozhodování. Pro uživatele je proto nezbytné, aby ve všech nestrukturovaných textových informacích uložených na svých serverech neztratily přehled, průběžně je systematizovaly a samozřejmě také vytěžili prospěch z včasného získání dalších informací analýzou stávajících dat. Právě zde nastupuje na scénu text mining. Text mining je metoda, která umí nestrukturovaná textová data zpracovat a poskytne nám stěžejní informaci obsaženou v textu dokumentu, setřídí dokumenty podle podobnosti bez toho, aby je musel někdo číst. Celý tento automatický proces bez potřeby lidských zdrojů je v současné době velmi žádoucí. [36] Historie metody text miningu je poměrně krátká a logicky souvisí se samotnou existencí dat v digitální formě. Přibližně před čtyřiceti lety inženýři začali hledat způsob, jak propojit sbírky textových dokumentů pomocí počítačových technologií [17]. Položili tak základy vědecké disciplíně, která je známa jako počítačová lingvistika a je v současné době populární na mnohých univerzitách a různých výzkumných ústavech celého světa. Původně byla počítačová lingvistka čistě nekomerčně zaměřená na hledání Stránka 6

8 způsobů, jak roztřídit a prozkoumat obsah nejrůznějších textových dokumentů (odborné knihy a časopisy, soudní záznamy, noviny, reporty, patenty), které mohou být převedeny do elektronické podoby. V současné době je tento vědecký obor základním zdrojem informací a metod pro text mining, jako souhrnné označení systému dolování informací v digitální textové formě, které se skládá ze složitých lingvistických metod a kompletní sady nástrojů pokročilé analytiky a statistiky. Text mining se stal nejrozšířenější technologií při řešení úloh reálného světa, počínaje analýzou malých záznamů až k organizaci inteligentního vyhledávání a interpretaci tržních zpráv. Obor text miningu obecně spadá pod soubor data miningových metod, kde vznikl jako další odvětví data miningu, pokrývající požadavky po zpracování textů za souběžného vyhledání informací v nich obsažených. Důvodem separace text mining od data miningu je především skutečnost, že data mining má obecnější záběr, vyhledává a zpracovává informace i v číslech, nominálních a ordinárních proměnných, naopak text mining se specializuje výhradně na práci s nestrukturovaným textem. [30] [36] Formálněji by se text mining dal definovat následujícím způsobem. Text mining (textová analýza) nebo někdy může být alternativně nazýván data miningem je metoda netriviální automatické extrakce skryté, implicitní, předem neznámé a potenciálně užitečné a důležité informace z velkého množství nestrukturovaných" a částečně strukturovaných textových dat pomocí kombinaci strojového učení, pokročilých statistických analýz, různých algoritmu, identifikace jádrových konceptů, postojů a trendů a následného použití této informace [30]. Výstupem jsou smysluplné informace. Pro upřesnění jsou v definici myšleny za neznámé informace ty, které zná autor dokumentu, ale současně nejsou pro ostatní implicitně viditelné. Nalezení těchto informací je tak velmi obtížným úkolem, který se často realizuje v souborech v celých souborech textů, kde se analyzují jejich vzájemné vazby a souvislosti. Další možnou definicí je popis text miningové metody jako proces objevování respektive získávání znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou důležité pro uživatele používajícího text miningový software [30]. Ten odhaluje propojení a vztahy ne pouze v rámci jednoho dokumentu, ale napříč celým spektrem dokumentů, se kterými v daný okamžik pracuje. Dokumentem pak může být například článek v odborném časopisu, nebo volné textové odpovědi v dotazníku s otevřenými otázkami, různé záznamy databáze, ová korespondence, běžné články v novinách, ale i například judikatura. Prvořadou úlohou text miningu je převést nestrukturovaná textová data do strukturované podoby co Stránka 7

9 nejblíže tomu, jak by to udělal člověk, který by dokumenty četl. Tento softwarově strukturovaný výstup pak lze třídit a vybírat pomocí standardních data miningových metod. Častou mylnou představou je to, že text mining je prakticky to samé, co vyhledávání v textu. [18] Vyhledávací softwary postupují tak, že hledají informace v textovém materiálu chronologicky. To má za následek fakt, že abychom dospěli k požadovanému výsledku, musíme přesně vědět, co hledáme a také přesně formulovat otázku. Textová analýza používá přesně opačný postup. Logicky pak není ani potřeba, abychom přesně znali hledaný termín, naopak, text miningem se odkrývají slova (předměty) a slovní spojení (koncept) obsažené v těle dokumentů a následně se mapují vztahy mezi nimi. Tento rozdíl vyplývá už ze samotné podstaty vyhledávání, například na webu. Tam vyhledáváme věci, které známe, ale chceme si o nich zjistit další informace. Cílem text miningu je naopak získání informace nové, doposud neznámé. [18] Další s text miningem zaměňovanou metodou je data mining. Rozdíl je ten, že text mining zpravidla vychází ze přirozeného jazyka, tedy volného textu a data mining ze strukturovaných dat. [22] To ovšem nevylučuje kombinované použití data miningu a text miningu, kdy si data miningem vypomáháme při samotné analýze již strukturovaných dat. Případně ještě dochází ke kombinaci analýzy strukturovaných a nestrukturovaných dat současně. Příkladem může byt zpracování dotazníků s otevřenými a uzavřenými otázkami, kdy na otevřené dotazy je použit text mining, a na uzavřené otázky data mining. Takovéto komplexní zpracování dává vždy nejlépe použitelný výstup. Další aplikací kombinovaného použití data miningu a text miningu může být vyhledávání trendů v sérii numerických dat a následně vyhledání možných důvodů pro tento vývoj v časových sériích textových dokumentů. [3] Na text mining se nahlíží převážně jako na činnost skládající se ze tří částí. [30] První část procesu se nazývá popsat jako předzpracování textových dokumentů. Vstupní dokument je převeden do určité standardizované podoby, takzvané mezilehlé polohy, se kterou se dále pracuje. Ve druhé fázi se získávají znalosti, které jsou odvozovány z mezilehlé polohy a následně se analyzují. Třetí fázi je pak export dat získaných v druhé fázi do srozumitelné formy, jako grafy tabulky křivky apod. Tolik stručně k částem procesu text miningu. Podrobně budou jednotlivé části ještě rozebrány níže, a to jak v teoretické, tak praktické části bakalářské práce. Stránka 8

10 2.2 Využití- uplatnění Využití a obory uplatnění text miningu jsou široké. Své uplatnění nachází při nejrůznějších analýzách zákaznických dat, například záznamů z call center, dále pak při organizaci a inteligentním vyhledávání v klíčových tržních zprávách, reportech atd. V praxi se prokázalo, že použití text miningu zřetelně přineslo výsledky v širokém spektru komerčních firemních aplikací. Velkým přínosem je vylepšení CMR (Customer Relationship Management), kdy nabízí všestrannější pohled na zákazníky, jejich přání a preference, který vede k následnému efektivnějšímu marketingu, prodloužení životnosti vztahu zákazníka a firmy a v neposlední řadě taky k větší spokojenosti zákazníka a tím také vyšším ziskům firmy. Data pro text mining se získávají jak standardními postupy, tak jsou odebírána prostřednictvím online nástrojů, jako výzkumy nebo data web 2.0 interactions, která se následně využívají i pro brand monitoring. Dalším využitím, jak již bylo stručně zmíněno, je analýza odpovědí otevřeného průzkumu. Pomocí text miningu lze v odpovědích objevit soubory slov nebo fráze používané respondenty při hodnocení kladů a záporů daného produktu, služby nebo značky. Otevřené odpovědi, přestože jsou náročnější na zpracování, ve výsledku dávají kvalitnější a přesnější výsledky. Hlavním důvodem je prostor daný respondentovi pro vyjádření svého stanoviska, kdy není omezen hranicemi nebo možnostmi, jak odpovědět. Jeho odpovědi jsou utříděny ex post pomocí text miningového nástroje. Dalším uplatněním je off-line analýza. Jedná se o hledání souvislostí v historických dokumentech všeho druhu, ať se jedná o sledování konkurence, reakcí na marketingové kampaně, nebo i politické situace a regionálních informací. Všechno toto nachází uplatnění v oborech PR marketingu, Call Center Analytics, Social media analytics, Market inteligence a ostatních oborech převážně Business Inteligence. Text mining slouží k vytvoření co nejlepšího přehledu o stavu konkurence a následnému vytěžení konkurenční výhody. To už je ovšem záležitostí marketingovou. Zkoumaní konkurence ve smyslu business intelligence, takzvaný web crawling, spočívá v analýze webových stránek konkurentů pomocí text miningového nástroje/softwaru. Takto automatizované zpracování obsahu webu konkurence slouží jako velmi efektivní způsob získání základních i podstatných informací o obchodních nabídkách a aktivitě konkurentů. Prozkoumáním webových stránek konkurenta lze automaticky odvodit pojmy z dokumentů, které jsou na dané stránky volně k dispozici. Tím lze určit nejen zaměření společnosti, ale i například akční nabídky společnosti, nabízené produkty a podobně. [30] Stránka 9

11 Text mining našel využití i ve spam filtrech. y jsou automaticky zpracovávány a filtrovány třízeny. Třídění nemusí být pouze na skupiny nevyžádaná pošta (SPAM) a běžná ová komunikace. Filtr příchozí pošty je možno ve větších společnostech nastavit tak, že je pošta nekonkrétně adresovaná pošta (např. podatelna@domena.xx) filtrována dle odborů nebo oddělení, do kterých jsou poté filtrem adresována. Toto velmi pomáhá zaměstnanců a preventivně předchází zahlcení poštovních schránek nevyžádanou nebo nesprávně adresovanou poštou. Prakticky slouží jako určitá bariéra příchozích ů, která dovoluje odfiltrovat případně s automatickou odpovědí vrátit y, kde je použit například nevhodný jazyk. Pro vícejazyčné instituce může bezchybně třídit poštu a přeposílat ji na pracovníky komunikující v tom či onom jazyce. Textová analýza může pomoci odhalit slabé a silné stránky produktu. Tomuto účelu slouží analýza reklamací nebo pojistných škod, obecně analýza otevřených textů z komerčních sfér. Aplikací text miningového algoritmu jsou příslušná data zpracovány a výstupem mohou být třeba nejčastější závady, stížnosti nebo důvody vrácení zboží. Toto jsou jenom některé příklady toho, kde se textová analýza uplatňuje. Každým dnem jsou uskutečňována další nová použití a vylepšována stávající. Soukromoprávní i veřejnoprávní korporace si bohatství skryté v textové informaci jednoduše nemůžou dovolit přehlížet. 2.3 Fáze textové analýzy: Předzpracování dat (preprocessing) Účel předzpracování Textová analýza je poměrně komplikovaný proces. Nejdříve je potřeba data získat a následně upravit. Samotná příprava a převedení textových dokumentů do normalizovaného formátu je rozhodující pro úspěšnou analýzu. Předpříprava textu může být jak velmi rychlá (normalizovaný export z databáze), nebo může naopak zabrat více času, než samotné zpracování dat. V současné době se již společnosti provádějící text miningovou analýzu z vnitřních zdrojů snaží tento proces prakticky eliminovat tím, že již předem dokumenty před uložením na firemní server normalizují, reporty jsou vždy ve stejném formátu a i zaměstnanci mají jednoznačnou instrukci, v jakém formátu data ukládat. Horší variantou je množství souborů uložených v různých formátech, jako MS Word, PDF, XPS, HTML a XML. Může se jednat jak o jednotlivé textové soubory, případně tabulky, ale vyskytují se situace, kdy analyzovaným vzorkem je celá databáze Stránka 10

12 nebo datový sklad. Některé univerzálnější systémy jsou schopny pracovat s více typy souborů, ale specializované zpravidla vyžadují přesně definovaná data (jak typově, tak co se týče kódování). Dále je důležitý i jazyk, ve kterém je jazyk vytvořen. Syntaktická analýza prvků je kategorizována snad nejsložitějším a stále vyvíjejícím se algoritmem, který je aplikován na každý jazyk samostatně a v některých jazycích nelze ani účinně použít. [33] Dále je důležité i kódování dokumentu. V praxi to znamená dokument překódovat do požadované znakové sady. Dále mezi obecnější faktory ovlivňující předpřípravu dat pro analýzu je kategorizace textů, oblasti zájmu uživatelů nebo požadovaná úroveň expertízy. Hlavním cílem předzpracování je získat strukturovaný vzorek textu z původních nestrukturovaných textových dat. Nyní k jednotlivým krokům první fáze předzpracování dat, a sice procesu stemizace/lemmatizace Způsoby-metody předzpracování: Stemizace\Lemmatizace V českém jazyce dochází ke skloňování slov celkem do sedmi pádů. V textu se logicky spousta slov nachází v různých tvarech a nezáleží, zda jde o pády slov, nebo jednotná a množná čísla, či slovesa v minulém, přítomném nebo budoucím čase. Při použití nejprimitivnějšího hledání (například CTRL+F v MS Word) a zadání slova strom program najde tvary strom, stromy stromu a bude se fakticky shodovat s výsledkem text miningového softwaru. Ale v případě, že vyhledáváme slovo sůl nebo dům, pomocí CTRL+F nalezneme pouze první pád těchto podstatných jmen, tvary soli, domu nebo domy nám zůstanou skryté a značnou měrou se podepíší na objektivitě výsledků. Příčinou toho je implementace stemizace nebo lemmatizace do text mineru. Jednoduše řečeno text miner pak převádí každé slovo na základní tvar a následně při zadání úlohy nalezne v dokumentu a zohlední ve výsledku všechna slova v základním tvaru. Přetrvávajícím problémem je to, že existují slova se stejným kořenem, která mají přesto rozdílný význam (ucho, oko atd.). Stemizace (stemming) je založena na tom, že algoritmus očistí slovo od předpon, přípon a koncovek, kdy výsledným tvarem je kořen, který ovšem nemusí být platným slovem, respektive jazykovým tvarem. [20] Lemmatizace směřuje ke stejnému cíli, ale jinými prostředky. Lemmatizátor vyhledává nebo vytváří v databázi programu k jednotlivým slovům takzvané lemma, což je základní gramaticky tvar, který najdeme ve slovníku. Podstatná jména jsou převedena na první pád jednotného čísla, přídavná jména na první pád jednotného čísla Stránka 11

13 mužského rodu prvního stupně v rámci stupňování a slovesa na infinitiv. Například slovní spojení nejmodřejších květin je převedeno na modrá květina. Lemmatizaci využívají také vyhledávače, z českých například Jyxo nebo Morfeo [33] [40] Lemmatizace a stemizace se tak liší svou podstatou, nikoli však samotným účelem. Výhodou stemizace je, že ke své funkci nepotřebuje slovníkovou bázi a není také závislá na její kvalitě. Problémem ovšem je, že dvě různá slova mohou být převedena na jeden stejný stem. Výsledkem použití těchto metod je vyšší počet výsledků (nalezení relevantního výrazu ve všech tvarech) a současně zmenšení velikosti analýzy zajištěné odstraněním redundance (slova v různých tvarech jsou vnímána jako jedno slovo, ne jako více výrazů). Závěrem je vhodné dodat, že obě metody mohou být implementovány do softwaru současně, tedy je použit algoritmus podpořený slovníkovou bází. [20] Lemmatizace a stemizace se využívá pro vyhledávání ve fulltextových databázích. Tento proces probíhá za využití různých počítačových programů, které se obecně označují jako morfologické analyzátory. Pro český jazyk lze využít morfologický analyzátor Ajka, pro angličtinu pak The Porter Stemming Algorithm, nebo lemmatizací slovníky postavené na Ispell a WordNetu. [37] Při vhodném výběru text mineru software sám během analýzy provede celý proces (například program SAS), nebo se používá metoda vytvoření frekvenčních slovníků (program Statistica 10). Metoda vytvoření frekvenčních slovníku Frekvenční slovník (frequency dictionary)- Speciální jazykový slovník, v němž se uvádí četnosti výskytu slova nebo jiné lingvistické jednotky ve stanovené oblasti jazykové komunikace, zejména frekvence základní slovní zásoby [36] [26] Vytvoření frekvenčního slovníku je relativně časově náročná činnost. Je třeba začít obecný vyhledáváním nejčastějších slov v textu pomocí softwaru. Programů je na tuto činnost dostatek, například RextStar nebo AntConc. [11] Při sestavování slovníku narážíme na dvě zásadní otázky, které je třeba zohlednit, a sice jaká a kolik slov analyzovat. Celá procedura výběru slov do slovníku je složitější, než vypsání nejčastějších nebo nejdůležitějších slov. Čeština je plná velmi ohebných slov, proto je vhodnější vybrat ne jednotlivé nejčastější slova, ale slovní základy neboli lemmata. To se provede převedením nejčastějších slov na slovní kořeny a teprve poté se zjišťuje počet výskytů těchto kořenů. [15] Stránka 12

14 Vytvořeni slovníku synonym Dalším nezbytným krokem v první fázi očištění dat je vytvořeni slovníku synonym. Nahrazení slov synonymem je často užívanou technikou plagiátorů pro zakrytí okopírovaného textu. Z tohoto důvodu je jedním z nutných nástrojů pro textovou analýzu slovník lexikální databáze, který umožňuje shlukovat (nacházet podobné) slova podle jejich významu. Taková struktura umožňuje uživateli např. spojovat slova podobného významu pomoci nalézání synonym. Mít takový slovník je potřebné z toho důvodu, že ve volném textu je docela častým jevem to, že se objevují slova, které mají vzájemně odlišný tvar, ale v podstatě stejný význam. To má za výsledek častou redundanci dat a příliš rozsáhlý výstupní seznam klíčových slov. Tomu zabraňují v programu integrované slovníkové soubory, obsahující většinu slovních významu, které se v textu můžou zaměňovat. V případě absence takového slovníků (nebo v případě nepodporovaní jazyka), různé textové analyzátory nabízejí uživatelům možnosti vytváření vlastního slovníků synonymu (podobné vytvářeni frekvenčního slovníků), což velmi časově náročná práce, ale lze nalézt spousta připravených slovníkových souborů, které jsou přístupné běžným uživatelům na webu (bohužel převážně v anglickém jazyce). Pokročilejší variantou slovníku synonym je normalizace slov metodou zobecnění významu slova, to znamená využití hyperonym. Hyperonymum je nadřízené slovo označující obecnější pojem jiného slova. Hyperonymum nahrazuje slovo obecnějším pojmem. Příkladem je nahrazení slov pes a kočka za slovo zvíře. Tenhle postup nahrazuje slova zdola. Jestliže je něco hruškou a jablkem, pak to musí být také ovocem; Při zobecňování slov se na požadovanou úroveň dostaneme průchodem několika úrovní. Například k slovu kočka vedou slova objekt, živoucí entita, zvíře, obratlovec, savec a kočkovitá šelma. Což bude postup zdola nahoru a je to opakem hyperonyma zvané hyponymum. Text převzat z [40] Hyponymum postupuje směrem od obecnějšího významu k samotnému slovu. K tomuto účelu lze použit Word Net tezaurus, který mimo jiné obsahuje hyperonymické odkazy. [39] Vytvoření Stop listu negative dictionary Další procedurou první fáze je vytvoření stop listu, jindy nazývaného jako negativní slovník. Stop list je seznam slov, které nenesou žádnou významnou informaci, zpravidla se jedná o spojky, předložky a části modálních sloves, případně varianty slovesa být. Během aplikace stop listu dochází k mazání těchto pro analýzu Stránka 13

15 irelevantních slov. Většinou se používá již vytvořený stop list pro určitý jazyk, ale není to pravidlem. Na webu lze najít velký počet již hotových stop listů, které obsahují standardní seznam spojek, předložek atd., které lze dále upravit pro individuální potřebu při té či oné analýze. [25] Nahrazování čísel Dalším, s čím je nutné se v některých případech vypořádat, je nahrazení čísel textem. Textové dokumenty docela často v sobě nesou informaci v podobě čísel, a právě tyto čísla mohou být těsně spojité s informací, kterou hledáme. [22] Zpravidla k tomu dochází při kombinaci data minignu a text miningu během analýzy rozsáhlé databáze, kde je důležité najit vztah čísel a volného textu. Pokud se jedna o volný nestrukturovaný text, nejde na analýzu použít data mining a současně většina textových analyzátoru nepozná v textovém řádku číselnou hodnotu. Bud ji nepřečte, nebo přeskočí jako hodnotu, která nenese v sobě význam. Proto je třeba použit metodu nahrazování čísel, která je jednou z technik předpracovaní textu. Tato technika převádí číselné hodnoty na text. Zůstává pouze informace o existenci čísla, nikoli jeho hodnotě. [40] Převedení dokumentů do jednotného formátu Skutečným problémem dnešní doby je celková roztříštěnost formátů a platforem, ve kterých jsou dokumenty ukládány. Nejedná se již pouze o notoricky známé formáty.doc,.pdf,.xml,.html,.txt,.rtf nebo.odt, ale i další exporty dokumentů například do formátů, které jsou dnes masivně využívané primárně ve čtečkách knih. Kvůli nim je vytvářen nespočet dalších, ne zrovna kompatibilních formátů, jako.epub,.fb2,.djvu,.azw,.opf,.tr2,.tr3 nebo.aeh. Samotné analýze tak musí předcházet převedení dokumentů do jednotného formátu. V případě, když je analyzován jeden dokument, by k žádným potížím s formátováním nemělo dojit. Problém vzniká až v případě zpracování několika dokumentů v různých formátech. Pokud databáze souborů pro analýzu obsahuje několik různých formátů dokumentů, muže dojít k chybě při zpracování dokumentů - zamítnutí/přerušení spouštění procesu analýzy, případně program některé formáty prostě nepřečte a přeskočí, což logicky vede ke ztrátě významných informací a tím také k oslabení relevantnosti výsledků. Abychom se vyhnuli těmto potížím, dokumenty se před analýzou převádí na jednotný program pomocí on-line nástrojů, případně specializovaných programů. Ale i tak může docházet k chybám, mezi nejčastější v případě češtiny patří problémy s diakritikou u převedeného textu. Znaky jsou často Stránka 14

16 vzhledem k použití nejednotného kódování u.pdf nahrazeny různými, pro češtinu neznámými symboly. Těmto problémům lze předejít odstraněním diakritiky z textu ještě před jeho převodem. Během zpracování textových dokumentů docela často nastává situace, že textový analyzátor neumí zpracovat text v českém jazyce kvůli diakritice. Důvodem je to, že v sobě nemá integrovanou českou znakovou sadu. Často při převedení dokumentu do jiného formátu a na výstupu dostaneme textový dokument s rozrušenou diakritikou. V takových případech je potřeba z dokumentu dostat text bez diakritických znamének bud manuálně, záměnou znaku za písmena bez diakritiky, nebo pomoci speciálních programu, případně online programu, obsahující funkce, které nahradí vybrané znaky za písmena bez diakritiky ( Existují i další možné úpravy textu ve stadiu předzpracovaní. Demonstrativní výčet je následující (Převzato z [24]): kontrola pravopisu filtrování termínů oprava u poškozeného přeposíláním převod textu na malá či velká písmena oprava textu vzniklého omylem zapnutým Caps Lockem získání čistého textu z kódu webové stránky vytvoření typograficky správného textu v HTML Analýza textu Druhou a nejvíce podstatnou fází textové analýzy je automatické analyzování nestrukturovaných textových dokumentů, získávání strukturované informace z daného dokumentu a její následný rozbor. Zkráceně v této části dochází k analýze předzpracovaného dokumentu a vygenerování termů. Termem se rozumí základní prvek, kterým jsou jednotlivá slova nebo sousloví, které slouží k analýze. [30] Objevení různých zákonitostí v textu a existence softwaru, který automatizuje proces odhalení takovýchto zákonitostí a poskytuje možnost hledání klíčových slov, rozpoznání druhu a obsahu textu nebo vytvoření stručného shrnutí dokumentu (abstraktu), aniž by byla potřeba ho číst. Prostředí textového analyzátoru je velmi různorodé a existuje množství různých způsobů dolování dat z textu. Text může být tak roztříděn podle témat, která danou oblast reprezentují, nebo mohou být vyhledána klíčová slova, případně může být vytvořen souhrn textu. Tato Stránka 15

17 fáze umožňuje roztřídit a transformovat nestrukturované informace do smysluplné podoby. Výběr vhodného způsobu analýzy, typ a podoba získané informace jsou velmi závislé na tématu zadaného požadavku. Nástroje k dosažení výsledků text analýzy jsou různorodé, například: text categorization (kategorizace textu), document clustering (shlukování dokumentů), document filtering, (filtrování dokumentů) duplication detection (detekce duplikace), information extraction (extrakce informací), text summarization (sumarizace textů) atd Jednotlivé úlohy analýzy textu Kategorizace textů (Text categorization) Text categorization, česky nazývaná prostým překladem kategorizací textů je úkol zadaný softwaru, který určuje druh dokumentů podle obsahu, tématu, názvů nebo klíčových slov, a poté je organizuje, to znamená, třídí dokumenty do předem definovaných kategorií (např. politika, ekonomika, sport) [12] [29] Každý text může být přiřazen výlučně do jedné kategorie, nebo také k více kategoriím, případně nezařazen nikam. Typicky je toto provedeno pomocí četnosti výskytu slov v textu, nebo klasickou metodou roztřídění podle stejného názvu dokumentu. Kategorizace textů může být použita pro takový typ dokumentů, jako novinové články, y, webové stránky atp. Automatické detekce tématu dokumentu může být využito při správě rozsáhlých úložišť, při eliminaci nevyžádané pošty nebo pro odfiltrování stránek nevhodného obsahu (například pomocí rodičovského filtru na PC). Tuto úlohu lze využít i při analýze webového průzkumu nebo reklamací, kdy software sám roztřídí typ odpovědí na kladné, záporné a irelevantní, případně podle dalších znaků. Příslušné oddělení se pak efektivně zabývá pouze odpověďmi, které mají informační hodnotu a nad ostatními neztrácí čas. Shlukování textů (text clustering) Jedním z dalších způsobů analýzy je identifikace textových dokumentů pomocí shlukové analýzy. Lze říci, že shlukování textů je proces seskupování dokumentů na základě vzájemné podobnosti. Jeden z prvních, kdo tento pojem nazval, pokusil se definovat a také poprvé použil, byl Kalifornský profesor psychologie R. C. Tryon. Ten v roce 1939 publikoval knihu Shluková analýza. Pojem definoval takto: Shluková analýza je obecný logický postup formulovaný jako procedura, pomocí níž seskupujeme objektivně jedince do skupin na základě jejich podobností a rozdílností. [35] Stránka 16

18 Shlukovou analýzou textů rozumíme proces, který používá různé algoritmy k uspořádání a sloučení dat s podobným významem do skupiny (shluku). Praktickým výsledkem je dělení všech dokumentů na skupiny, ve kterých jsou shlukovány nejvíce podobné dokumenty podle jejich příbuznosti obsahu a zadaných parametrů. Shluková analýza zabezpečuje, aby v jednotlivém shluku byly zařazené dokumenty co nejvíce podobné, a současně také, aby jednotlivé shluky byly co nejvíce odlišné od shluků ostatních. Cílem shlukové analýzy je tak rozlišení množin (clusterů), ve kterých je podobnost s jinými clustery minimální, a současně vnitřní podobnost clusteru maximální. [17] Ze samotné podstaty shlukové analýzy je zřejmé, že každý analyzovaný dokument musí být zařazen do jedné skupiny. Pokud je pro rozlišení použit obsah dokumentů, pak různé skupiny korespondují s různými náměty a tématy obsaženými v tomto souboru dokumentů (k identifikaci námětu/ tématu skupiny shlukové nástroje používají slova, která jsou běžná v dokumentech dané skupiny). Obrázek 1 - převzat z [36] Obrázek ukazuje jednotlivé textové záznamy (dokumenty, formuláře, žádosti atd.), které byly podrobeny analýze. Záznamy, které jsou mimo hlavní shluk, se nějakým způsobem od většiny dokumentů odlišují, a proto by jim mělo věnovat pozornost. [36] Shlukování textů je do jisté míry podobné textové kategorizaci, popsané v předchozím odstavci. Rozdílem je, že proces kategorizace dokumentu dokumenty roztřídí do předem stanovených skupin, naopak text clustering jednotlivé dokumenty na základě vzájemné podobnosti a klíčová slova extrahuje přímo z textu. Problémem se může ukázat, že vytvořené kategorie na základě náplně dokumentu nemusí vždy logicky odpovídat kategoriím, tak jak by je vytvořil člověk. Potom se stává to, že sportovní výsledky mohou spadat do stejné kategorie jako například ekonomické ukazatele, protože obsahují nadprůměrné množství čísel. Proto je také nutné, aby s text minerem pracoval odborník a zadával mu co nejkonkrétnější příkazy. Pro správnou operaci Stránka 17

19 existují speciálně vyvinuté algoritmy, kterými se ovšem nebudu zabývat, neboť práce není matematicky zaměřená. Analýza sentimentu Analýza sentimentu (sentiment analysis) člení dokumenty podle emočního obsahu do třech skupin: pozitivní (positive), negativní (negative) a neutrální (neutral). Během člověkem vytvořeného textového záznamu pracuje software podle citově zabarvených slov, případně podle toho, jaká slova obecně jsou použita v dokumentu. Analýzou textu lze usoudit mnoho informací o autorovi, nejen jeho postoj, ale i věk, pohlaví, myšlení, postoj k adresátovi, nebo do určité míry i vzdělanost. Většinou se hodnotí sentiment podle použití expresivních slov pokud jsou použita nadprůměrně, jsou následně rozdělena mezi pozitivní a negativní a stejně tak je definován text. Pokud je jejich výskyt v nízké míře, je text kategorizován jako neutrální. [5] Shrnutí textu Dalším způsobem analýzy může být shrnutí textu, tedy text summary. Tato analýza se velmi dobře uplatní, pokud se zpracovává rozsáhlý textový dokument v krátkém čase. Manuálně všechen text přečíst a porozumět mu je občas mimo časové možnosti. Právě pomocí automatického nástroje text miningu lze vytvořit shrnutí originálních rozsáhlých dokumentů, případně shrnovat uživatelem nastavené části (sekce, odstavce). [21][16] Princip shrnování textu je, že software skenuje text pomocí metody summary extraction a z daného dokumentu vybírá nejdůležitější části důležitost je zpravidla definována uživatelem, ale není to podmínkou. Definice probíhá tak, že uživatel stanoví takzvané koncepty, kterými jsou regulární výrazy nebo gramatická pravidla a dle nich pak text miner prohledá všechny dokumenty. Takovýto postup je vhodný za předpokladu, že víme, co je pro nás důležité a nechceme číst velké množství textu, abychom zjistili co nejvíce informací o oblasti zájmu. [34] Software tak najde požadované informace automaticky a výstupem bude smysluplná informace vytěžená s rozsáhlého textového dokumentu. Konkrétním příkladem softwaru může být třeba SAS text summarization. [27] Existuje ještě jeden podobný způsob shrnování textu. Jedná se o summary abstraction. Tato metoda poskytuje lepší výsledky, text je hlouběji analyzován, kdy na základě jeho sémantické reprezentace je parafrázován obsah. Problémem je však, že se Stránka 18

20 jedná o čistě strojovou úpravu a výsledné generování souvislého textu není na takové úrovni, aby dosahovalo srozumitelnosti výstupu po použití text summary. [16] Extrakce informací Pojem extrakce informací většinou znamená převedení nestrukturovaného nebo částečně strukturovaného textu do strukturované podoby. Obecně se tak jedná o princip předzpracování, ale může být i jednou z metod samotné textové analýzy. V tomto smyslu nabývá zcela jiný význam, sice spočívá v identifikace jednotlivých klíčových komponent v textu a jejich vzájemných vztahů. Z textových dokumentů jsou tak extrahovány předem specifikované informace a ty jsou následně organizovány. Poté je generován strukturovaný soubor informací, se kterým lze vykonávat další operace. [30] Celý tento proces funguje na principu skenování textu za účelem nahrazení určitých slov a výrazů takzvanými nálepkami pojmu. Poté již se jen odkazuje na tyto nálepky pojmů a získávají se strukturovaná data. Pro celý proces je klíčové, aby v textu bylo možné rozpoznat jména lidí, organizací, míst atd. [19] Extrakce konceptů; rozpoznání pojmenovaných entit Tento způsob extrakce určuje entity k různým variacím pojmenování entity. Pokud bude například v článku zmíněn americký prezident, pak i jeho jméno, případně pojem prezident USA bude přiřazen stejné entitě. Zpracování těchto výrazů je jedním z největších problémů při zpracování přirozeného jazyka. (Labský, Svátek, 2007) [19] [30] Určení vztahu mezi entitami Po správném určení entit následuje další složitý úkon. Na základě analýzy vět a rozpoznání entit lze definovat a rozpoznat vztahy mezi entitami. [30] Pokud se v textu objeví informace, že Dagmar Veškrnová se vdala za Václava Havla, pak je text miner schopen definovat entitu prezidentovy manželky, nebo správně zařadit Dagmar Havlovou do této entity. Současně již zůstane definován vztah mezi těmito dvěma enenitami, tedy prezidentem a jeho manželkou. S touto problematikou také souvisí rozpoznání jmen (name recognition). Nejedná se pouze o jména osob, ale i o geografické lokace, společnosti a organizace, jména produktů, umělecká díla, sportovní kluby, skupiny, atd.). Správné použití rozpoznání jmen je klíčové, protože v textu se často software potýká se s problémem mnohoznačnosti, a na rozdíl od člověka slovo tak snadno logicky nepřiřadí pod správnou skupinu, případně entitu. [23] Stránka 19

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.

Více

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně vyhledávat informace,

Více

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz Vývoj moderních technologií při vyhledávání Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz INFORUM 2007: 13. konference o profesionálních informačních zdrojích Praha, 22. - 24.5. 2007 Abstrakt Vzhledem

Více

PRODUKTY Tovek Server 6

PRODUKTY Tovek Server 6 Tovek Server je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených strukturovaných i nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních

Více

webmarketin Základní moduly aplikace

webmarketin Základní moduly aplikace webmarketin Aplikace webmarketing je komplexní online nástroj určený pro podporu a řízení marketingu a CRM ve společnosti. Její součástí jsou webové ankety, SMS kampaně nebo newslettery, které lze spravovat

Více

POSUDEK VEDOUCÍHO BAKALÁŘSKÉ PRÁCE

POSUDEK VEDOUCÍHO BAKALÁŘSKÉ PRÁCE POSUDEK VEDOUCÍHO BAKALÁŘSKÉ PRÁCE Jméno studenta Branný Jan Název práce Jméno vedoucího práce Jméno oponenta práce Realizace modulárního CMS pro digitální agentury Ing. David Hartman Ph.D. Ing. Lukáš

Více

Ontologie. Otakar Trunda

Ontologie. Otakar Trunda Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba

Více

Dobývání znalostí z textů text mining

Dobývání znalostí z textů text mining Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro

Více

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D. Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky Ing. Jan Ministr, Ph.D. I. Úvod Agenda II. Customer Intelligence (CI),zpracování dat z Internetu III. Analýza obsahu IV.

Více

Úvod. Klíčové vlastnosti. Jednoduchá obsluha

Úvod. Klíčové vlastnosti. Jednoduchá obsluha REQUESTOR DATASHEET Úvod Requestor Service Desk poskytuje kompletní řešení pro správu interních i externích požadavků, které přicházejí do organizace libovolnou cestou. Produkt je zaměřen na vytvoření

Více

ABBYY Automatizované zpracování dokumentů

ABBYY Automatizované zpracování dokumentů ABBYY Automatizované zpracování dokumentů tradiční řešení OCR versus Cloud Jiří Dvořák ECM konzultant Světový leader v produktech pro zpracování dokumentů Individulání uživatelé Malé a střední společnosti

Více

HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT

HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT Funkce Najít a nahradit slouží k rychlému vyhledávání určitých slov a jejich nahrazování jinými slovy. Lze hledat i určité varianty slov a nahrazovat je buď hromadně (všechny

Více

Obsah ČÁST I JAK SE UCHÁZET O ZÁKAZNÍKY NA WEBU KAPITOLA 1

Obsah ČÁST I JAK SE UCHÁZET O ZÁKAZNÍKY NA WEBU KAPITOLA 1 Obsah O autorech 11 Poděkování 13 Předmluva 15 Úvod 17 Proč byste se měli přečíst tuto knihu 17 Co tato kniha obsahuje 18 Jak používat tuto knihu 19 Zpětná vazba od čtenářů 20 Errata 20 ČÁST I JAK SE UCHÁZET

Více

INFORMATIKA. Libovolná učebnice k MS OFFICE 200x (samostatné učebnice k textovému procesoru MS Word 200x, tabulkovému procesoru MS Excel 200x).

INFORMATIKA. Libovolná učebnice k MS OFFICE 200x (samostatné učebnice k textovému procesoru MS Word 200x, tabulkovému procesoru MS Excel 200x). Cíl předmětu: Cílem předmětu je prohloubit znalosti studentů ze základních aplikačních programů. Jedná se především o pokročilejší nástroje z aplikací MS Word a MS Excel. Jednotlivé semináře se zaměřují

Více

Předmluva 11 Typografická konvence použitá v knize 12. 1 Úvod do Excelu 2003 13

Předmluva 11 Typografická konvence použitá v knize 12. 1 Úvod do Excelu 2003 13 Předmluva 11 Typografická konvence použitá v knize 12 1 Úvod do Excelu 2003 13 Spuštění a ukončení Excelu 14 Spuštění Excelu 14 Ukončení práce s Excelem 15 Přepínání mezi otevřenými sešity 16 Oprava aplikace

Více

Tabulkový procesor. Základní rysy

Tabulkový procesor. Základní rysy Tabulkový procesor Tabulkový procesor je počítačový program zpracovávající data uložená v buňkách tabulky. Program umožňuje použití vzorců pro práci s daty a zobrazuje výsledné hodnoty podle vstupních

Více

Microsoft.NET. AppTima Feedback Solution - komplexní systém pro zjišťování a vyhodnocování spokojenosti zákazníků

Microsoft.NET. AppTima Feedback Solution - komplexní systém pro zjišťování a vyhodnocování spokojenosti zákazníků Microsoft.NET AppTima Feedback Solution - komplexní systém pro zjišťování a vyhodnocování spokojenosti zákazníků Přehled Země: Velká Británie Odvětví: Informační technologie Profil zákazníka Pantek Ltd.

Více

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů

Více

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 ZÁKLADY PROGRAMOVÁNÍ Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 Co je vhodné vědět, než si vybereme programovací jazyk a začneme programovat roboty. 1 / 13 0:40 Implementace Umělá inteligence (UI) Umělá inteligence

Více

5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA

5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA 5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA 5. 15. 1 Charakteristika předmětu A. Obsahové vymezení: IVT se na naší škole vyučuje od tercie, kdy je cílem zvládnutí základů hardwaru, softwaru a operačního systému,

Více

Obsah. Zpracoval:

Obsah. Zpracoval: Zpracoval: houzvjir@fel.cvut.cz 03. Modelem řízený vývoj. Doménový (business), konceptuální (analytický) a logický (návrhový) model. Vize projektu. (A7B36SIN) Obsah Modelem řízený vývoj... 2 Cíl MDD, proč

Více

Příprava dat v softwaru Statistica

Příprava dat v softwaru Statistica Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,

Více

Využití tabulkového procesoru MS Excel

Využití tabulkového procesoru MS Excel Semestrální práce Licenční studium Galileo srpen, 2015 Využití tabulkového procesoru MS Excel Ing Marek Bilko Třinecké železárny, a.s. Stránka 1 z 10 OBSAH 1. ÚVOD... 2 2. DATOVÝ SOUBOR... 2 3. APLIKACE...

Více

Kontingenční tabulky v MS Excel 2010

Kontingenční tabulky v MS Excel 2010 Kontingenční tabulky v MS Excel 2010 Autor: RNDr. Milan Myšák e-mail: milan.mysak@konero.cz Obsah 1 Vytvoření KT... 3 1.1 Data pro KT... 3 1.2 Tvorba KT... 3 2 Tvorba KT z dalších zdrojů dat... 5 2.1 Data

Více

QAD CRM. Vladimír Bartoš. konzultant

QAD CRM. Vladimír Bartoš. konzultant QAD CRM Vladimír Bartoš konzultant Integrace QAD CRM QAD EA Artikly Adresy Nabídky Prodejní objednávky Instalovaná báze Servisní volání Servisní kontrakty Servisní nabídky Nabídky volání Měny Uživatelé

Více

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0 UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0 OBSAH 1 ÚVOD... 3 1.1 HOME STRÁNKA... 3 1.2 INFORMACE O GENEROVANÉ STRÁNCE... 4 2 VYHLEDÁVÁNÍ V ÚZEMÍ...

Více

Studie webů automobilek

Studie webů automobilek Studie webů automobilek červen 2006 [manažerské shrnutí] Obsah Obsah... 1 Manažerské shrnutí... 2 Kvalita obsahu a použitelnost webu... 3 Základní nedostatky negativně ovlivňují použitelnost většiny webů...

Více

Zpráva o zhotoveném plnění

Zpráva o zhotoveném plnění Zpráva o zhotoveném plnění Aplikace byla vytvořena v souladu se Smlouvou a na základě průběžných konzultací s pověřenými pracovníky referátu Manuscriptorium. Toto je zpráva o zhotoveném plnění. Autor:

Více

Přístupy k řešení a zavádění spisové služby

Přístupy k řešení a zavádění spisové služby Přístupy k řešení a zavádění spisové služby Miroslav Kunt Praha, 22. 3. 2016 Výběr SSl důležité okolnosti Je potřeba zájem vedení organizace, kompetentní pracovníci spisové služby, co největší přiblížení

Více

IntraDoc. Řešení pro státní správu a samosprávu. http://www.inflex.cz

IntraDoc. Řešení pro státní správu a samosprávu. http://www.inflex.cz Motivace IntraDoc Řešení pro státní správu a samosprávu http://www.inflex.cz Naším cílem je nabídnout pracovníkům úřadu efektivní a do detailu propracovanou podporu procesů a správu dokumentů spojených

Více

Microsoft Word základní

Microsoft Word základní Časový rozsah: 2 dny (8:30-14:00) Cena: 2400 Kč + DPH Microsoft Word základní Tvorba kratších dokumentů se zaměřením na korespondenci. Základy tvorby a formátování písma a odstavců. Vkládání tabulek a

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Odborný článek. Petr Klán, VŠE v Praze, IMRAD Introduction, Material and Method, Results, Discussion

Odborný článek. Petr Klán, VŠE v Praze, IMRAD Introduction, Material and Method, Results, Discussion Odborný článek Petr Klán, VŠE v Praze, petr.klan@vse.cz Části odborného článku IMRAD Introduction, Material and Method, Results, Discussion NADPIS Do 10 slov Autor (autoři) Jméno, adresa, e-mail Abstrakt

Více

Informační média a služby

Informační média a služby Informační média a služby Výuka informatiky má na Fakultě informatiky a statistiky VŠE v Praze dlouholetou tradici. Ke dvěma již zavedeným oborům ( Aplikovaná informatika a Multimédia v ekonomické praxi

Více

Jak používat statistiky položkové v systému WinShop Std.

Jak používat statistiky položkové v systému WinShop Std. Jak používat statistiky položkové v systému WinShop Std. Systém WinShop Std. využívá k zápisům jednotlivých realizovaných pohybů (příjem zboží, dodací listy, výdejky, převodky, prodej zboží na pokladně..)

Více

Kdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie. Předmět: PLIN08 Projekty II. Semestr: Jaro 2015

Kdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie. Předmět: PLIN08 Projekty II. Semestr: Jaro 2015 Kdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie Předmět: PLIN08 Projekty II Semestr: Jaro 2015 Vedoucí projektu: Mgr. Marek Grác, Ph.D. Úkolem tohoto projektu bylo vytvořit

Více

Informační systém řešící rozvrhování

Informační systém řešící rozvrhování AIP Scholaris 1(1), 2012, 15 21, ISSN 1805-613X Online: scholaris.vse.cz Informační systém řešící rozvrhování Petra Procházková 1 1 Fakulta informatiky a statistiky, Vysoká škola ekonomická v Praze nám.

Více

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o. Digitalizace a oběh dokumentů Automatizace obchodních porcesů Likvidace odběratelských a dodávatelských faktur Efektivita firemních procesů je jedním ze základních pilířů fungování celé společnosti. Některé

Více

ZŠ a MŠ, Brno, Horníkova 1 - Školní vzdělávací program

ZŠ a MŠ, Brno, Horníkova 1 - Školní vzdělávací program 4.3. Informační a komunikační technologie Charakteristika předmětu Vzdělávací oblast je realizována prostřednictvím vyučovacího předmětu Informatika. Informatika je zařazena do ŠVP jako povinný předmět

Více

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu StatSoft Typy souborů ve STATISTICA Tento článek poslouží jako přehled hlavních typů souborů v programu STATISTICA, ukáže Vám jejich možnosti a tím Vám dovolí využívat program efektivněji. Jistě jste již

Více

Modulární systém dalšího vzdělávání pedagogických pracovníků JmK v přírodních vědách a informatice CZ.1.07/1.3.10/ Brožura dobré praxe

Modulární systém dalšího vzdělávání pedagogických pracovníků JmK v přírodních vědách a informatice CZ.1.07/1.3.10/ Brožura dobré praxe Modulární systém dalšího vzdělávání pedagogických pracovníků JmK v přírodních vědách a informatice CZ.1.07/1.3.10/02.0024 Brožura dobré praxe Informatika 1 Brožura dobré praxe informatika Materiál shrnuje

Více

Vyhledávání na Internetu

Vyhledávání na Internetu Tento materiál byl napsán za využití učebních materiálů ke Kurzu práce s informacemi (KPI11) vyučovaném v roce 2007 na Masarykově univerzitě. Autory kurzu jsou: PhDr. Petr Škyřík, Mgr. Petra Šedinová,

Více

Neuralmarketing Inteligentní newsletter

Neuralmarketing Inteligentní newsletter Nabídka jednorázové rozesílky a doplňkových služeb Neuralmarketing Inteligentní newsletter Nabídka jednorázové rozesílky a doplňkových služeb 2 Obsah 1 Příprava rozesílky... 3 2 Rozesílka... 4 3 Zpracování

Více

Závislost na počítačových hrách u žáků druhého stupně vybraných základních škol

Závislost na počítačových hrách u žáků druhého stupně vybraných základních škol POSUDEK BAKALÁŘSKÉ / MAGISTERSKÉ PRÁCE OPONENT Název Závislost na počítačových hrách u žáků druhého stupně vybraných základních škol Autor Bc. Jiří Zatřepálek Vedoucí práce Mgr. Jaroslav Vacek Oponent

Více

plussystem Příručka k instalaci systému

plussystem Příručka k instalaci systému plussystem Příručka k instalaci systému Tato příručka je určena zejména prodejcům systému a případně koncovým uživatelům. Poskytuje návod, jak provést potřebná nastavení komponent. ITFutuRe s.r.o. 26.2.2015

Více

Aplikace pro srovna ní cen povinne ho ruc ení

Aplikace pro srovna ní cen povinne ho ruc ení Aplikace pro srovna ní cen povinne ho ruc ení Ukázkový přiklad mikroaplikace systému Formcrates 2010 Naucrates s.r.o. Veškerá práva vyhrazena. Vyskočilova 741/3, 140 00 Praha 4 Czech Republic tel.: +420

Více

MBI - technologická realizace modelu

MBI - technologická realizace modelu MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,

Více

Vzdělávací obsah vyučovacího předmětu

Vzdělávací obsah vyučovacího předmětu V.9.3. Vzdělávací obsah vyučovacího předmětu Vzdělávací oblast: Inormatika a informační a komunikační technologie Vyučovací předmět: Informatika Ročník: 1. ročník + kvinta chápe a používá základní termíny

Více

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová 5. Statistica StatSoft, Inc., http://www.statsoft.com, http://www.statsoft.cz. Verze pro Mac i PC, dostupná

Více

Porovnání rychlosti mapového serveru GeoServer při přístupu k různým datovým skladům

Porovnání rychlosti mapového serveru GeoServer při přístupu k různým datovým skladům Porovnání rychlosti mapového serveru GeoServer při přístupu k různým datovým skladům Bakalářská práce 2014 Autor: Adam Schreier Garant práce: Jan Růžička Obsah prezentace 1.Seznámení s řešeným problémem

Více

Název Autor Jitka Debnárová Vedoucí práce Mgr. Petra Vondráčková, Ph.D. Oponent práce Mgr. Lenka Reichelová

Název Autor Jitka Debnárová Vedoucí práce Mgr. Petra Vondráčková, Ph.D. Oponent práce Mgr. Lenka Reichelová Název Autor Jitka Debnárová Vedoucí práce Mgr. Petra Vondráčková, Ph.D. Oponent práce Mgr. Lenka Reichelová Vztahová vazba u osob se závislostí na pervitinu POSUDEK BAKALÁŘSKÉ / MAGISTERSKÉ PRÁCE VEDOUCÍ

Více

Název materiálu: Open Office

Název materiálu: Open Office Základní škola Nový Bor, náměstí Míru 128, okres Česká Lípa, příspěvková organizace e-mail: info@zsnamesti.cz; www.zsnamesti.cz; telefon: 487 722 010; fax: 487 722 378 Registrační číslo: CZ.1.07/1.4.00/21.3267

Více

PHP framework Nette. Kapitola 1. 1.1 Úvod. 1.2 Architektura Nette

PHP framework Nette. Kapitola 1. 1.1 Úvod. 1.2 Architektura Nette Kapitola 1 PHP framework Nette 1.1 Úvod Zkratka PHP (z anglického PHP: Hypertext Preprocessor) označuje populární skriptovací jazyk primárně navržený pro vývoj webových aplikací. Jeho oblíbenost vyplývá

Více

Datová kvalita. RNDr. Ondřej Zýka

Datová kvalita. RNDr. Ondřej Zýka Datová kvalita RNDr. Ondřej Zýka 1 Datová kvalita Jedna z kompetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě potřebné k jejich činnosti Kvalita dat: Subjektivní pojem závislý na požadavcích

Více

Ing. Pavel Rosenlacher

Ing. Pavel Rosenlacher Marketing v sociálních sítích Webová analytika Ing. Pavel Rosenlacher pavel.rosenlacher@vsfs.cz Krátké shrnutí SEO spočívá v lepším zobrazování stránek ve výsledcích vyhledávání na vyhledávačích Souhrnně

Více

2013 IBM Corporation

2013 IBM Corporation 2013 IBM Corporation Connections v praxi Jak vypadá nasazení Social software v praxi MICHAL HOLOUBEK Social Business konzultant, oxy Online, s.r.o. 2013 IBM Corporation Agenda Úvod Zadání a specifikace

Více

Gymnázium Jiřího Ortena, Kutná Hora

Gymnázium Jiřího Ortena, Kutná Hora Předmět: Náplň: Třída: Počet hodin: Pomůcky: Informatika a výpočetní technika (IVT) Úvod do předmětu, základní pojmy IVT, operační systém MS Windows, Internet, netiketa, číselné soustavy a uložení dat

Více

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání 1 z 5 Nápověda 360 Search Co je 360 Search? 360 Search je metavyhledávač, který slouží k paralelnímu prohledávání všech dostupných informačních zdrojů prostřednictvím jednotného rozhraní. Nástroj 360 Search

Více

Příprava na vysoké školy technických oborů, reg. č. CZ.1.07/1.1.04/03.0012

Příprava na vysoké školy technických oborů, reg. č. CZ.1.07/1.1.04/03.0012 Evaluační zpráva Příprava na vysoké školy technických oborů, reg. č. CZ.1.07/1.1.04/03.0012 Zpracovatel: PPŠ institut celoživotního vzdělávání Přerov, s.r.o. Přerov, 2012 Termín sběru dat: 6. 3. 2012 22.

Více

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA ELEKTROTECHNICKÁ A4M39NUR Hierarchické číselníky Část D1: Autoři: Uživatelský průzkum a analýza Martin Hofman hofmama3 Tomáš Markacz markatom 1 Obsah dokumentu Účel

Více

OptimiDoc dokáže takové dokumenty zpracovat a distribuovat napříč firmou.

OptimiDoc dokáže takové dokumenty zpracovat a distribuovat napříč firmou. Automatizujte zpracování a distribuci dokumentů do vašich firemních procesů! Nemáte kontrolu nad stovkami papírových dokumentů, které přichází do vaší firmy? OptimiDoc dokáže takové dokumenty zpracovat

Více

5.3.1. Informatika pro 2. stupeň

5.3.1. Informatika pro 2. stupeň 5.3.1. Informatika pro 2. stupeň Charakteristika vzdělávací oblasti Vzdělávací oblast Informační a komunikační technologie umožňuje všem žákům dosáhnout základní úrovně informační gramotnosti - získat

Více

Uživatelská podpora v prostředí WWW

Uživatelská podpora v prostředí WWW Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,

Více

Software programové vybavení. 1. část

Software programové vybavení. 1. část Software programové vybavení 1. část Software Vše co není HW je SW = pojem se někdy vztahuje jak na programy, tak na data Oživuje hardware (zdaleka ne jen počítače) Je-li přítomen procesor, musí být i

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Cestovní zpráva. Program akce: Průběh akce. O Anopress

Cestovní zpráva. Program akce: Průběh akce. O Anopress Cestovní zpráva Pracovník: Jiří Fišer Akce: Školení o obsluze databází z programu VISK8-A Datum konání: 4. 4. 2016 Místo konání: Praha, Národní knihovna Klíčová slova: Anopress -- vyhledávání -- tisk --

Více

Obsah KAPITOLA 1 Několik slov o Wordu 2007 9

Obsah KAPITOLA 1 Několik slov o Wordu 2007 9 KAPITOLA 1 Několik slov o Wordu 2007 9 Pás karet 10 Další možnosti ovládání Wordu 12 Nastavení Wordu 13 Ovládání Wordu 2007 klávesnicí 14 KAPITOLA 2 Základní operace 17 Základní nastavení 17 Rozdělení

Více

DODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM Č. 3. Zadavatel: Název veřejné zakázky: Česká republika Ministerstvo zemědělství

DODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM Č. 3. Zadavatel: Název veřejné zakázky: Česká republika Ministerstvo zemědělství Zadavatel: Česká republika Ministerstvo zemědělství Název veřejné zakázky: Vytvoření nového informačního systému MZe pro výzkum a vývoj - "VÝZKUM-AGRI" Sídlem: Těšnov 65/17, 110 00 Praha 1 Nové Město Evidenční

Více

DESET LET S THESES.CZ Ing. Jitka Brandejsová

DESET LET S THESES.CZ Ing. Jitka Brandejsová DESET LET S THESES.CZ Ing. Jitka Brandejsová OBECNÉ KONCEPTY Plagiát vs. software pro detekci podobností Cílem je kvalitnější vzdělání Schopnost práce s textem. Schopnost práce s citacemi. Akademická čest

Více

E-mailové kampaně. 2013 Byznys CRM s.r.o.

E-mailové kampaně. 2013 Byznys CRM s.r.o. E-mailové kampaně 2013 Byznys CRM s.r.o. Zákazník: Dne: 31. 5. 2015 Vytvořil: Pavel Šlesingr Schválil: Petr Hampejs Verze: 5.0 Emailové kampaně v CRM 2011 Strana 2 z 15 Obsah Obsah... 3 1. Popis... 4 1.1.

Více

Unstructured data pre-processing using Snowball language

Unstructured data pre-processing using Snowball language Unstructured data pre-processing using Snowball language Předzpracování nestrukturovaných dat pomocí jazyka Snowball Bc. Pavel Řezníček, doc. Ing. František Dařena, PhD., Ústav informatiky, Provozně ekonomická

Více

Microsoft Access tvorba databáze jednoduše

Microsoft Access tvorba databáze jednoduše Microsoft Access tvorba databáze jednoduše Časový rozsah: 2 dny (9:00-16:00) Cena: 3300 Kč + DPH Úvod do relačních databází. Funkce databázových objektů Microsoft Access. Návrh tabulek, definice základních

Více

Projekt informačního systému pro Eklektik PRO S EK. Řešitel: Karolína Kučerová

Projekt informačního systému pro Eklektik PRO S EK. Řešitel: Karolína Kučerová Projekt informačního systému pro Eklektik PRO S EK Řešitel: ÚVODNÍ ZPRÁVA ZADÁNÍ PROJEKTU Zefektivnění komunikace ve firmě Eklektik, a to především v oblasti informací o klientech a o tištěných materiálech

Více

Co je nového v aplikaci PaperPort 12?

Co je nového v aplikaci PaperPort 12? Vítejte! Aplikace PaperPort společnosti Nuance je softwarový balíček pro správu dokumentů pracovní plochy, který vám usnadní skenování, uspořádání, sdílení, správu a přístup k papírovým a digitálním dokumentům

Více

icc Next Generation atlantis Copyright 2011, atlantis

icc Next Generation atlantis Copyright 2011, atlantis icc Next Generation atlantis Copyright 2011, atlantis Zaměření icc zdravotnická zařízení výrobní podniky instituce a samospráva jednotky až stovky agentů malé, střední a velké organizace kontextově zaměřený

Více

Cloudové služby kancelářského softwaru hostované společností Microsoft Kvalitní nástroje pro firemní nasazení za přijatelnou cenu Vždy aktuální verze

Cloudové služby kancelářského softwaru hostované společností Microsoft Kvalitní nástroje pro firemní nasazení za přijatelnou cenu Vždy aktuální verze Cloudové služby kancelářského softwaru hostované společností Microsoft Kvalitní nástroje pro firemní nasazení za přijatelnou cenu Vždy aktuální verze Office, e-mail, sdílení dokumentů, videokonference

Více

1 Webový server, instalace PHP a MySQL 13

1 Webový server, instalace PHP a MySQL 13 Úvod 11 1 Webový server, instalace PHP a MySQL 13 Princip funkce webové aplikace 13 PHP 14 Principy tvorby a správy webového serveru a vývojářského počítače 14 Co je nezbytné k instalaci místního vývojářského

Více

Systémy pro podporu rozhodování. Hlubší pohled 2

Systémy pro podporu rozhodování. Hlubší pohled 2 Systémy pro podporu rozhodování Hlubší pohled 2 1 Připomenutí obsahu minulé přednášky Motivační příklad Konfigurace DSS Co to je DSS? definice Charakterizace a možnosti DSS Komponenty DSS Subsystém datového

Více

Dolování dat z dotazníků. Ondřej Takács

Dolování dat z dotazníků. Ondřej Takács Dolování dat z dotazníků Ondřej Takács Úvod Součást projektu, který se zabývá individualizovaným e-learningem virtuální učitel, který svůj výklad přizpůsobuje statickým či dynamicky se měnícím vlastnostem

Více

Vyučovací předmět: PRAKTIKA Z INFORMATIKY. A. Charakteristika vyučovacího předmětu. a) Obsahové, časové a organizační vymezení předmětu

Vyučovací předmět: PRAKTIKA Z INFORMATIKY. A. Charakteristika vyučovacího předmětu. a) Obsahové, časové a organizační vymezení předmětu Vyučovací předmět: PRAKTIKA Z INFORMATIKY A. Charakteristika vyučovacího předmětu. a) Obsahové, časové a organizační vymezení předmětu Časové vymezení vyučovacího předmětu praktika z informatiky je podle

Více

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9 Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................

Více

Analýza staročeské morfologie v Excelu

Analýza staročeské morfologie v Excelu Analýza staročeské morfologie v Excelu B O R I S L E H E Č K A, B O R I S @ D A L I B O R I S. C Z O D D Ě L E N Í V Ý V O J E J A Z Y K A Ú S T A V P R O J A Z Y K Č E S K Ý A V Č R L I N G V I S T I

Více

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc. Big Data a oficiální statistika Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc. Obsah příspěvku Charakteristiky Big Data Výzvy a úskalí z perspektivy statistiky Výzvy z perspektivy computing

Více

Efektivní práce s Excelem (středně pokročilí uživatelé)

Efektivní práce s Excelem (středně pokročilí uživatelé) 2015 Efektivní práce s Excelem (středně pokročilí uživatelé) rozsah: 2 dny (10 hodin) Mgr. Jiří Číhař www.dataspectrum.cz Efektivní práce s Excelem pro středně pokročilé uživatele Práce s rozsáhlými tabulkami

Více

Cloudové služby kancelářského softwaru hostované společností Microsoft Kvalitní nástroje pro firemní nasazení za přijatelnou cenu Vždy aktuální verze

Cloudové služby kancelářského softwaru hostované společností Microsoft Kvalitní nástroje pro firemní nasazení za přijatelnou cenu Vždy aktuální verze Cloudové služby kancelářského softwaru hostované společností Microsoft Kvalitní nástroje pro firemní nasazení za přijatelnou cenu Vždy aktuální verze Office, e-mail, sdílení dokumentů, videokonference

Více

Antiplagiátorské nástroje pro naše repozitáře

Antiplagiátorské nástroje pro naše repozitáře Antiplagiátorské nástroje pro naše repozitáře Jan Mach Vysoká škola ekonomická v Praze Univerzita Karlova v Praze 23. 10. 2013 Seminář ke zpřístupňování šedé literatury Co je plagiát? 1. klonování vydávání

Více

FINANČNÍ KONSOLIDACE TEORIE A PRAKTICKÁ REALIZACE PROSTŘEDNICTVÍM INFORMAČNÍCH SYSTÉMŮ

FINANČNÍ KONSOLIDACE TEORIE A PRAKTICKÁ REALIZACE PROSTŘEDNICTVÍM INFORMAČNÍCH SYSTÉMŮ FINANČNÍ KONSOLIDACE TEORIE A PRAKTICKÁ REALIZACE PROSTŘEDNICTVÍM INFORMAČNÍCH SYSTÉMŮ Ing. Milan Bartoš Capgemini Sophia s.r.o. member of the Capgemini Group Abstrakt Cílem článku je představit teoreticky

Více

Datová věda (Data Science) akademický navazující magisterský program

Datová věda (Data Science) akademický navazující magisterský program Datová věda () akademický navazující magisterský program Reaguje na potřebu, kterou vyvolala rychle rostoucí produkce komplexních, obvykle rozsáhlých dat ve vědě, v průmyslu a obecně v hospodářských činnostech.

Více

The bridge to knowledge 28/05/09

The bridge to knowledge 28/05/09 The bridge to knowledge DigiTool umožňuje knihovnám vytvářet, administrovat, dlouhodobě uchovávat a sdílet digitální sbírky. DigiTool je možno využít pro institucionální repozitáře, sbírky výukových materiálu

Více

Souborové systémy a logická struktura dat (principy, porovnání, příklady).

Souborové systémy a logická struktura dat (principy, porovnání, příklady). $TECH 13 Str. 1/5 Souborové systémy a logická struktura dat (principy, porovnání, příklady). Vymezení základních pojmů Soubor První definice: označuje pojmenovanou posloupnost bytů uloženou na nějakém

Více

ALGORITMIZACE A PROGRAMOVÁNÍ

ALGORITMIZACE A PROGRAMOVÁNÍ Metodický list č. 1 Algoritmus a jeho implementace počítačovým programem Základním cílem tohoto tematického celku je vysvětlení pojmů algoritmus a programová implementace algoritmu. Dále je cílem seznámení

Více

Projekt IMPLEMENTACE ŠVP

Projekt IMPLEMENTACE ŠVP Střední škola umělecká a řemeslná Evropský sociální fond "Praha a EU: Investujeme do vaší budoucnosti" Projekt IMPLEMENTACE ŠVP Evaluace a aktualizace metodiky předmětu Německý jazyk Obory nástavbového

Více

PŘÍLOHA C Požadavky na Dokumentaci

PŘÍLOHA C Požadavky na Dokumentaci PŘÍLOHA C Požadavky na Dokumentaci Příloha C Požadavky na Dokumentaci Stránka 1 z 5 1. Obecné požadavky Dodavatel dokumentaci zpracuje a bude dokumentaci v celém rozsahu průběžně aktualizovat při každé

Více