Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Rozměr: px
Začít zobrazení ze stránky:

Download "Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha"

Transkript

1 Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha

2 Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace dat (typicky bag of words ) 2 možné přístupy k text mining: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro text mining 2

3 Úlohy text mining Vyhledávání informací (information retrieval, IR) dokument chápan jako celek text categorization document clustering document filtering duplication detection sentiment analysis Extrakce informací (information extraction, IE) hledání v dokumentech text summarization template mining 3

4 Text Mining a SAS: Enterprise Předzpracování textů Text parsing node (převod dokumentu na BoW) Miner Text filtering node (kontrola pravopisu, filtrování termínů, propojení témat, fultextové vyhledávání) Text topics node (reprezentace dokumentů souhrnnějšími tématy s využitím SVD) Text mining Text mining node (převod dokumentu na BoW, propojení témat, shlukování dokumentů SVD, termíny) 4

5 EM pro IR: předzpracování + běžný data mining 5

6 Text Parsing node - results 6

7 Text Filter node - results 7

8 Text filter node view 8

9 Text Topics node - results 9

10 Text Topics node - viewer 10

11 Běžný data mining téma 11

12 EM pro IR: speciální algoritmy pro text mining 12

13 Text Mining node - parsing 13

14 Text mining node - analýza 14

15 Běžný data mining SVD dimenze 15

16 Běžný data mining termín 16

17 Text Mining a SAS: komponenty Teragram Content categorization + document duplication detection + text summarization + search and indexing + (web crawler, content alerts, MeSH rules, IPTC rules) Sentiment analysis Ontology management 17

18 SAS Content Categorization Slouží pro kategorizaci dokumentů (IR) Statistické učení Automatické učení pravidel Ruční definice pravidel a identifikaci konceptů v dokumentech (IE) Klasifikační koncepty Gramaticky definované koncepty 18

19 Kategorizace dokumentů Statistické učení Black box přístup, vznikne hierarchie konceptů Automatické učení Vytvoří se hierarchie pojmů, pro každou se zadá sada ukázkových dokumentů, systém pak pro každou kategorii navrhne kategorizační pravidla s jasnou sémantikou (pojmy vyskytující se v dané kategorii) Ruční Nekvalifikovaná pravidla seznam slov Kvalifikovaná pravidla spec. symboly: (cena@), (*produkt), (-sport), (--vítěz) Vážená lingvistická pravidla 19

20 Výběr nejvhodnější kategorie Režim frekvenční relevance Match Ratio udává počet termů, které musí být rozpoznány, aby byl dokument klasifikován do dané kategorie Pokud počet rozpoznaných termů dosáhne Match Ratio u více kategorií, vybere se kategorie s nejvyšším absolutním počtem rozpoznaných kategorií Režim 2- zónové frekvenční relevance Rozpoznané termy blíže začátku dokumentu dostanou větší váhu Vhodné pro novinové články 20

21 Kategorie a termíny 21

22 Definice konceptů Klasifikační koncept (classifier concept) Koncept je definován seznamem slov nebo pomocí regulárních výrazů Vhodné pro zachycení očekávaných informací, nebo informací, pro které lze sestrojit regulární výraz Gramaticky definovaný koncept (grammar concept) Lze zachytit předem neznámé informace pomocí lingvistických pravidel 22

23 Gramatický koncept: definování 23

24 Gramatický koncept: hledání <HearstPattern>life is a mistake</hearstpattern> 24

25 Podpora češtiny Hledání přídavných jmen: přesnost i úplnost je 13/17=

26 Shrnutí SAS Content Categorization Intuitivní a jednoduchá kategorizace dokumentů pomocí ruční definice kategorií Velmi jemná podpora pro definici gramatických pravidel, které lze využít pro extrakci faktů z textu 26

27 SAS Document duplication detection (IR) Detekce vzájemné (obsahové) podobnosti dokumentů test/nytimes-sgml/ sgml test/nytimes-html/international/asia/16kand.html SIMILAR test/nytimes-sgml/ sgml test/nytimes-html/garden/16cutt.html SIMILAR test/nytimes-sgml/ sgml test/nytimes-html/nyregion/thecity/16ctycytt.html SIMILAR test/nytimes-sgml/ sgml test/nytimes-sgml/ sgml SIMILAR test/nytimes-sgml/ sgml test/nytimes-sgml/ sgml SIMILAR test/nytimes-sgml/ sgml test/nytimes-html/books/review/16donnelt.html SIMILAR test/nytimes-sgml/ sgml test/nytimes-html/national/16croq.html SIMILAR test/nytimes-sgml/ sgml test/nytimes-html/books/review/16hellert.html SIMILAR test/nytimes-sgml/ sgml test/nytimes-html/magazine/16letters.html PARTLY CONTAINED IN test/nytimes-sgml/ sgml test/nytimes-html/books/review/16zelinst.html SIMILAR test/nytimes-sgml/ sgml test/nytimes-html/books/review/16gartwot.html SIMILAR test/nytimes-sgml/ sgml test/nytimes-html/politics/16hill.html SIMILAR test/nytimes-sgml/ sgml test/nytimes-html/nyregion/16rest.html SIMILAR 27

28 SAS Text Summarization (IE) Vybírá důležité věty z textu Důležitost je dána výskytem uživatelem definovaných konceptů Počet vybraných vět je dán uživatelem Absolutní číslo nebo procento Čím více konceptů ve větě je, tím je důležitější Při definici konceptů je možné využít regulární výrazy a gramatická pravidla, není možné využít lematizátor Možnosti shrnutí Celý dokument Odstavce Sekce 28

29 build,7 house,7 Věty, ve kterých mají rozpoznané koncepty největší váhu, jsou vloženy do shrnutí. 29

30 SAS Sentiment analysis (IE) Analýza emočního obsahu dokumentů (např. názorů zákazníků) založená na detekci výskytů slov nesoucích kladné, záporné a neutrální emoce Metody: Statistické modely Ručně definovaná lingvistická pravidla Hybridní 30

31 SAS Sentiment analysis 31

32 Možnost využití ve výuce předměty zaměřené na data mining a text mining SAS EM-TM předměty zaměřené na zpracování přirozeného jazyka (NLP) SAS Content Categorization SAS Sentiment analysis SAS TM (parsing, filtering) předměty zaměřené na vyhledávání informací (IR) SAS Content Categorization 32

33 Děkuji za pozornost Petr Berka

Dobývání znalostí z textů text mining

Dobývání znalostí z textů text mining Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Korpusová lingvistika a počítačové zpracování přirozeného jazyka Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář

Více

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha Identifikace tématických sociálních sítí Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha 2 Obsah prezentace Cíl Fáze řešení a navržené postupy Prototyp a výsledky

Více

Dobývání znalostí z webu web mining

Dobývání znalostí z webu web mining Dobývání znalostí z webu web mining Web Mining is is the application of data mining techniques to discover patterns from the Web (Wikipedia) Tři oblasti: Web content mining (web jako kolekce dokumentů)

Více

Automatické vyhledávání informace a znalosti v elektronických textových datech

Automatické vyhledávání informace a znalosti v elektronických textových datech Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická

Více

Jak efektivně řídit životní cyklus dokumentů

Jak efektivně řídit životní cyklus dokumentů Jak efektivně řídit životní cyklus dokumentů Václav Bahník, ECM Solution Consultant 2014 IBM Corporation Nestrukturovaná data Strukturovaná Nestrukturovaná 2 Document Management System Vyhledávání Sdílení

Více

Strojové učení se zaměřením na vliv vstupních dat

Strojové učení se zaměřením na vliv vstupních dat Strojové učení se zaměřením na vliv vstupních dat Irina Perfilieva, Petr Hurtík, Marek Vajgl Centre of excellence IT4Innovations Division of the University of Ostrava Institute for Research and Applications

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky Modely a sémantika Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky Úvod Existující problémy Prudký nárůst množství informací na webu Kognitivní přetížení Ztráta v informačním prostoru

Více

Sémantický web a extrakce

Sémantický web a extrakce Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací

Více

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR PŘEDMĚT PRÁCE Popis extrakce strukturovaných dat ve vybraných doménách ze semistrukturovaných

Více

Analýzou dat k efektivnějšímu rozhodování

Analýzou dat k efektivnějšímu rozhodování Analýzou dat k efektivnějšímu rozhodování Chytrá řešení pro veřejnou správu Václav Bahník, ECM Solution Consultant Marek Šoule, ECM Software Sales Representative 8.4.2013 Řízení efektivního poskytování

Více

Textmining a Redukce dimenzionality

Textmining a Redukce dimenzionality Vytěžování dat, cvičení 7: Textmining a Redukce dimenzionality Miroslav Čepek, Michael Anděl Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 22 Textmining

Více

Autor: Jan Hošek

Autor: Jan Hošek Úvod STC Závěr Autor: Jan Hošek Školitel: RNDr. Radim Řehůřek Fakulta jaderná a fyzikálně inženýrzká České vysoké učení technické v Praze 25. 5. 2009 Osnova Úvod STC Závěr 1 Úvod Motivace Ukázka technologie

Více

Ontologie. Otakar Trunda

Ontologie. Otakar Trunda Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba

Více

InternetovéTechnologie

InternetovéTechnologie 7 InternetovéTechnologie vyhledávání na internetu Ing. Michal Radecký, Ph.D. www.cs.vsb.cz/radecky Vyhledávání a vyhledávače - Jediný možný způsob, jak získat obecný přístup k informacím na Internetu -

Více

MBI - technologická realizace modelu

MBI - technologická realizace modelu MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,

Více

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových

Více

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů

Více

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/28.0076

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/28.0076 Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami reg. č.: CZ.1.07/2.2.00/28.0076 Lingvistické aplikace Kateřina Veselovská veselovska@ufal.mff.cuni.cz po 16:45 18:15

Více

Od grafického návrhu k funkčnímu webu

Od grafického návrhu k funkčnímu webu Od grafického návrhu k funkčnímu webu Petr Okurek Jan Štefl RedWeb s.r.o., www.redweb.cz Osnova Úvod Analýza grafického návrhu a identifikace funkčních prvků Analýza nalezených funkčních prvků a návrh

Více

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí Přemysl Václav Duben, Stanislav Vojíř Katedra informačního a znalostního inženýrství, FIS, Vysoká škola ekonomická v Praze nám. W.

Více

Automatická oprava textu v různých jazycích

Automatická oprava textu v různých jazycích Automatická oprava textu v různých jazycích Bc. Petr Semrád, doc. Ing. František Dařena Ph.D., Ústav informatiky, Provozně ekonomická fakulta, Mendelova univerzita v Brně, xsemrad@mendelu.cz, frantisek.darena@mendelu.cz

Více

Úvod do zpracování signálů

Úvod do zpracování signálů 1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování

Více

InternetovéTechnologie

InternetovéTechnologie 7 InternetovéTechnologie vyhledávání na internetu Ing. Michal Radecký, Ph.D. www.cs.vsb.cz/radecky Vyhledávání a vyhledávače - Jediný možný způsob, jak získat obecný přístup k informacím na Internetu -

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Natalya Chernykh. Bakalářská práce

Natalya Chernykh. Bakalářská práce Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze Natalya Chernykh Analýza textu (text mining) pomocí vybraného softwaru Bakalářská práce

Více

Obsah. Část I Základy bezpečnosti...9 Kapitola 1 Základy obvodového zabezpečení...11. Kapitola 2 Filtrování paketů...27

Obsah. Část I Základy bezpečnosti...9 Kapitola 1 Základy obvodového zabezpečení...11. Kapitola 2 Filtrování paketů...27 Obsah Část I Základy bezpečnosti..............9 Kapitola 1 Základy obvodového zabezpečení.................11 Důležité pojmy...12 Hloubková obrana...15 Případová studie hloubkové obrany...25 Shrnutí...26

Více

InternetovéTechnologie

InternetovéTechnologie 4 InternetovéTechnologie vyhledávání na internetu Ing. Michal Radecký, Ph.D. www.cs.vsb.cz/radecky Vyhledávání a vyhledávače - Jediný možný způsob, jak získat obecný přístup k informacím na Internetu -

Více

SAP Business One Analytics powered by SAP HANA: Analytic Content and Enterprise Search

SAP Business One Analytics powered by SAP HANA: Analytic Content and Enterprise Search SAP Business One Analytics powered by SAP HANA: Analytic Content and Enterprise Search Agenda SAP Business One Analytics Powered by SAP HANA (B1A) Analytic Content and Enterprise Search Přehled Dashboardy

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h) A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h) 2.1 Základy marketingové strategie (2,5h) Učitelé se seznámí se základní marketingovou terminologií a s možnými cestami rozvoje firmy. V

Více

Uživatelská podpora v prostředí WWW

Uživatelská podpora v prostředí WWW Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,

Více

Unstructured data pre-processing using Snowball language

Unstructured data pre-processing using Snowball language Unstructured data pre-processing using Snowball language Předzpracování nestrukturovaných dat pomocí jazyka Snowball Bc. Pavel Řezníček, doc. Ing. František Dařena, PhD., Ústav informatiky, Provozně ekonomická

Více

Daniel Beneš Slezská univerzita v Opavě Filozoficko-přírodovědecká fakulta Ústav informatiky

Daniel Beneš Slezská univerzita v Opavě Filozoficko-přírodovědecká fakulta Ústav informatiky Daniel Beneš Slezská univerzita v Opavě Filozoficko-přírodovědecká fakulta Ústav informatiky Charakteristika projektu On-line aplikace pro analýzu mikrosatelitů révy vinné Charakteristika projektu On-line

Více

Dolování asociačních pravidel

Dolování asociačních pravidel Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních

Více

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z

Více

V Brně dne a

V Brně dne a Aktiva v ISMS V Brně dne 26.09. a 3.10.2013 Pojmy ISMS - (Information Security Managemet System) - systém řízení bezpečnosti č informací Aktivum - (Asset) - cokoli v organizaci, co má nějakou cenu (hmotná

Více

NLP & strojové učení

NLP & strojové učení NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování

Více

Textová data a dobývání znalostí

Textová data a dobývání znalostí Textová data a dobývání znalostí Obsah prezentace Co je to dobývání znalostí z textových dat (TM: text data mining) a proč je užitečné? Hlavní cíle a úlohy TM. Co je specifické pro práci s textovými daty?

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

Vyhledávání informací v prostředí webu mírný pokrok v mezích zákona

Vyhledávání informací v prostředí webu mírný pokrok v mezích zákona Vyhledávání informací v prostředí webu mírný pokrok v mezích zákona Vilém Sklenák * sklenak@vse.cz 1 Úvod Abstrakt: Nabídka služeb pro vyhledávání informací je v poslední době poměrně stabilizovaná. Rozšiřování

Více

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 ZÁKLADY PROGRAMOVÁNÍ Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 Co je vhodné vědět, než si vybereme programovací jazyk a začneme programovat roboty. 1 / 13 0:40 Implementace Umělá inteligence (UI) Umělá inteligence

Více

Cross-Site Scripting (XSS)

Cross-Site Scripting (XSS) Cross-Site Scripting (XSS) Bc. Aleš Joska Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky 3. duben 2018 Aleš Joska Cross-Site Scripting (XSS) 3. duben 2018 1 / 16

Více

Zaměření Webové inženýrství doc. Ing. Tomáš Vitvar, Ph.D. Katedra softwarového inženýrství Fakulta informačních technologií České vysovké učení technické v Praze Den otevřených dveří 20.2.2014 http://www.fit.cvut.cz

Více

BA_EM Electronic Marketing. Pavel

BA_EM Electronic Marketing. Pavel BA_EM Electronic Marketing Pavel Kotyza @VŠFS Agenda Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků Co je data mining? Je absolutní Je předem neznámý Je užitečný Co jsou data?

Více

Požadavky trhu práce a praxe v profesním vzdělávání v geoinformatice současná situace v Evropě a u nás Petr KUBÍČEK, Zdeněk STACHOŇ, Milan KONEČNÝ, Tomáš Řezník LGC, MU Brno 16. 5. 2014 Situace na VŠ Málo

Více

ECM. Enterprise Content Management. čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00)

ECM. Enterprise Content Management. čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00) ECM Enterprise Content Management čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00) Co nás čeká... Definice ECM Problém podnikového obsahu Historie vzniku ECM Architektura

Více

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně vyhledávat informace,

Více

Jak vybrat správný firewall. Martin Šimek Západočeská univerzita

Jak vybrat správný firewall. Martin Šimek Západočeská univerzita Jak vybrat správný firewall Martin Šimek Západočeská univerzita EurOpen.CZ, Měřín, 5. října 2015 Obsah prezentace K čemu je firewall? Co je to firewall? Kam svět spěje? Nová generace firewallů? Jak vypadá

Více

Vývoj řízený testy Test Driven Development

Vývoj řízený testy Test Driven Development Vývoj řízený testy Test Driven Development Richard Salač, Ondřej Lanč Fakulta jaderná a fyzikálně inženýrská České vysoké učení technické v Praze 23. - 30. 10. 2012 Obsah 1 Testování 2 Klasický přístup

Více

RELATIONAL DATA ANALYSIS

RELATIONAL DATA ANALYSIS KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO RELATIONAL DATA ANALYSIS RADIM BELOHLAVEK, JAN OUTRATA VÝVOJ TOHOTO UČEBNÍHO TEXTU JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM

Více

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D. Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky Ing. Jan Ministr, Ph.D. I. Úvod Agenda II. Customer Intelligence (CI),zpracování dat z Internetu III. Analýza obsahu IV.

Více

PRODUKTY Tovek Server 6

PRODUKTY Tovek Server 6 Tovek Server je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených strukturovaných i nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.

Více

Komunikace člověk počítač v přirozeném jazyce

Komunikace člověk počítač v přirozeném jazyce Komunikace člověk počítač v přirozeném jazyce 16. 5. 2012 10-1 Principy komunikace člověk - počítač v přirozeném jazyce 2 1 3 5 Technischer Dienst 4 Telefonischer Dienst Vertriebs-Dienst 10-2 Sensorické

Více

Texto t vá v á d at a a t a dobývání znalostí

Texto t vá v á d at a a t a dobývání znalostí Textová data a dobývání znalostí Obsah prezentace Co je to dobývání znalostí z dat (TM: text mining) a proč je užitečné? Hlavní cíle a úlohy TM. Čím se liší práce s textovými daty např. od práce se senzorickými

Více

Vyhledávání na portálu Knihovny.cz

Vyhledávání na portálu Knihovny.cz Inforum 2017 Vyhledávání na portálu Knihovny.cz Petr Žabička, Václav Rosecký, Petra Žabičková Moravská zemská knihovna v Brně Obsah Co indexuje portál Knihovny.cz Rozšíření o centrální index Hledání v

Více

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ

Více

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT Dolování dat z multimediálních databází Ing. Igor Szöke Speech group ÚPGM, FIT, VUT Obsah prezentace Co jsou multimediální databáze Možnosti dolování dat v multimediálních databázích Vyhledávání fotografií

Více

Metody založené na analogii

Metody založené na analogii Metody založené na analogii V neznámé situaci lze použít to řešení, které se osvědčilo v situaci podobné případové usuzování (Case-Based Reasoning CBR) pravidlo nejbližšího souseda (nearest neighbour rule)

Více

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o 1 ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ 21.9.2017 ČPIT 2017 Pavel Gardavský/AION CS, s.r.o O čem budu mluvit? 2 ZPL a citační analýza, typy, čísla, příklady Principy trochu podrobněji

Více

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku Aplikace auditních postupů Vyberte si jeden typ auditu (útvaru, projektu, aplikace, procesu, ) a na něm demonstrujte

Více

Vizualizace v Information Retrieval

Vizualizace v Information Retrieval Vizualizace v Information Retrieval Petr Kopka VŠB-TU Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Obsah Co je Information Retrieval, vizualizace, proces přístupu k informacím Způsoby

Více

MANAŽERSKÉ ROZHODOVÁNÍ ZA VYUŽITÍ METOD PRO ZPRACOVÁNÍ DOKUMENTŮ

MANAŽERSKÉ ROZHODOVÁNÍ ZA VYUŽITÍ METOD PRO ZPRACOVÁNÍ DOKUMENTŮ MANAŽERSKÉ ROZHODOVÁNÍ ZA VYUŽITÍ METOD PRO ZPRACOVÁNÍ DOKUMENTŮ Hana Kopáčková, Renáta Máchová Ústav systémového inženýrství a informatiky, Fakulta ekonomicko-správní, UPA Abstrakt: Tento příspěvek se

Více

Univerzita Pardubice Fakulta ekonomicko správní. Srovnávací studie text miningových nástrojů. Lukáš Hrdlička

Univerzita Pardubice Fakulta ekonomicko správní. Srovnávací studie text miningových nástrojů. Lukáš Hrdlička Univerzita Pardubice Fakulta ekonomicko správní Srovnávací studie text miningových nástrojů Lukáš Hrdlička Diplomová práce 2009 Prohlašuji: Tuto práci jsem vypracoval samostatně. Veškeré literární prameny

Více

FlowMon Vaše síť pod kontrolou

FlowMon Vaše síť pod kontrolou FlowMon Vaše síť pod kontrolou Kompletní řešení pro monitorování a bezpečnost počítačových sítí Michal Bohátka bohatka@invea.com Představení společnosti Český výrobce, univerzitní spin-off Založena 2007

Více

Vilém Sklenák Inforum2009,

Vilém Sklenák Inforum2009, Sémantické vyhledávání je blíže? Vilém Sklenák sklenak@vse.cz Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství Inforum2009, 27. 5. 2009 Vilém Sklenák

Více

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1 DMINA 2010 Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou

Více

1. Představení produktu Advance Hospital Analytics

1. Představení produktu Advance Hospital Analytics Benchmarking 2014 Petr Tůma Praha, 21.5.2014 Obsah sdělení 1. Představení produktu Advance Hospital Analytics Koncept produktu Globální analýza Speciální analýzy 2. Typické analytické postupy 3. Adresáti

Více

QAD Business Intelligence

QAD Business Intelligence QAD Business Intelligence Vladimír Bartoš, Pavel Němec Konzultanti 13.6.2012 Komponenty QAD BI Analytické tabule pro podporu rozhodování Spolupráce uživatelů nad analyzovanými daty Reporty Generátor analytických

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011 Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých

Více

Extrakce z nestrukturovaných dat

Extrakce z nestrukturovaných dat Extrakce z nestrukturovaných dat Ing. Ivo Lašek (upravil doc. Ing. Vojtěch Svátek, Dr.) Zimní semestr 2012 http://nb.vse.cz/~svatek/rzzw.html Extrakce pojmenovaných entit Extrakce informací ze nestrukturovaných

Více

Systém pro poloautomatické propojení textů se zdroji

Systém pro poloautomatické propojení textů se zdroji Masarykova univerzita Fakulta informatiky Systém pro poloautomatické propojení textů se zdroji Bakalářská práce Jindřich Ryšavý Brno, podzim 2016 Masarykova univerzita Fakulta informatiky Systém pro poloautomatické

Více

geekovo minimum počítačového Nadpis 1 Nadpis 2 Nadpis 3

geekovo minimum počítačového  Nadpis 1 Nadpis 2 Nadpis 3 geekovo minimum Nadpis 1 Nadpis 2 Nadpis 3 počítačového vidění Adam Herout (doc. Jméno Ing. Příjmení Ph.D.) Vysoké učení technické v Brně, Fakulta informačních technologií v Brně Vysoké učení technické

Více

Měření výsledků výuky a vzdělávací standardy

Měření výsledků výuky a vzdělávací standardy Měření výsledků výuky a vzdělávací standardy Erika Mechlová Ostravská univerzita v Ostravě Obsah Úvod 1. Měření výsledků výuky 2. Taxonomie učebních úloh 3. Standardy vzdělávání Závěry Úvod Měření výsledků

Více

Datová kvalita. RNDr. Ondřej Zýka

Datová kvalita. RNDr. Ondřej Zýka Datová kvalita RNDr. Ondřej Zýka 1 Datová kvalita Jedna z kompetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě potřebné k jejich činnosti Kvalita dat: Subjektivní pojem závislý na požadavcích

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.

Více

VYHLEDÁVÁNÍ NA INTERNETU. Přednášející: Ondřej Douša

VYHLEDÁVÁNÍ NA INTERNETU. Přednášející: Ondřej Douša VYHLEDÁVÁNÍ NA INTERNETU Přednášející: Ondřej Douša OBSAH PŘEDNÁŠKY Informace Minulost vyhledávání Placené versus neplacené zdroje Běžné vyhledávání: Seznam / Google / Bing Pokročilé vyhledávání Kategorizované

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

Algoritmy a struktury neuropočítačů ASN - P11

Algoritmy a struktury neuropočítačů ASN - P11 Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova

Více

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR získávání znalostí v geografických datech Autoři Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR cílet 2 GRR - Popis systému - cíle systém pro dolování

Více

ISSS 2016. Národní architektura ehealth

ISSS 2016. Národní architektura ehealth ISSS 2016 Národní architektura ehealth Ing. Ji í Borej, CGEIT Koordinátor Národní strategie elektronického zdravotnictví Ministerstvo zdravotnictví České republiky Hradec Králové 4. dubna 2016 Agenda 1.

Více

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc. Metadata, sémantika a sémantický web Ing. Vilém Sklenák, CSc. Inforum 2004, Praha, 27. 5. 2004 2/21 There are things we know that we know. There are known unknowns that is to say, there are things that

Více

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,

Více

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19 Předmluva 13 O autorovi 15 Poděkování 16 O odborných korektorech 17 Úvod 19 Co kniha popisuje 19 Co budete potřebovat 20 Komu je kniha určena 20 Styly 21 Zpětná vazba od čtenářů 22 Errata 22 KAPITOLA 1

Více

Využití strojového učení k identifikaci protein-ligand aktivních míst

Využití strojového učení k identifikaci protein-ligand aktivních míst Využití strojového učení k identifikaci protein-ligand aktivních míst David Hoksza, Radoslav Krivák SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Datové sklady. Zdeněk Kouba

Datové sklady. Zdeněk Kouba Datové sklady Zěk Kouba Data cube Sortiment Pečivo Maso Mléčné výrobky Koblihy Housky Chléb Místo Vepřové Hovězí Petrovice Drůbež Vysoký Chlumec Milevsko Mléko Kovářov Sýry Oslov Neveklov Jogurty Vrchotovy

Více

Data Science projekty v telekomunikační společnosti

Data Science projekty v telekomunikační společnosti Data Science projekty v telekomunikační společnosti Jan Romportl Chief Data Scientist, O2 Czech Republic Data, mapa a teritorium Data Science Mezioborová technicky orientovaná oblast, která se zabývá inovativním

Více

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba 1. 1. Správa podnikového obsahu (Enterprise Content Management ECM) Strategie, metody a nástroje

Více

Monitoring hlasu zákazníka Význam sociálních médií pro Competitive Intelligence

Monitoring hlasu zákazníka Význam sociálních médií pro Competitive Intelligence Monitoring hlasu zákazníka Význam sociálních médií pro Competitive Intelligence Ing. Tomáš Vejlupek, prezident Tovek, člen SCIP Odborný seminář Jak využít sociální sítě pro zvyšování konkurenceschopnosti

Více

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz 5. LETNÍ ŠKOLA MATEMATICKÉ BIOLOGIE ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM

Více

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO Seznam výukových materiálů III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblast: Předmět: Vytvořil: Rozvoj řečových dovedností Ruský jazyk Helena Malášková 01 O spánku a váze - prezentace

Více

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam

Více

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov v relačních databázích Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov Uživatel zadá jedno nebo více slov a jsou mu zobrazeny výsledky. Uživatel

Více

Uživatelské preference v prostředí webových obchodů. Ladislav Peška, MFF UK

Uživatelské preference v prostředí webových obchodů. Ladislav Peška, MFF UK Uživatelské preference v prostředí webových obchodů Ladislav Peška, MFF UK Disclaimer Obsah Uživatelské preference Získávání UP Využití UP Doporučování na webových obchodech Proč doporučovat? Jak doporučovat?

Více