Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Podobné dokumenty
Dobývání znalostí z textů text mining

Dolování z textu. Martin Vítek

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Dobývání znalostí z webu web mining

Automatické vyhledávání informace a znalosti v elektronických textových datech

Jak efektivně řídit životní cyklus dokumentů

Strojové učení se zaměřením na vliv vstupních dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Sémantický web a extrakce

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

Analýzou dat k efektivnějšímu rozhodování

Textmining a Redukce dimenzionality

Autor: Jan Hošek

Ontologie. Otakar Trunda

InternetovéTechnologie

MBI - technologická realizace modelu

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Od grafického návrhu k funkčnímu webu

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí

Automatická oprava textu v různých jazycích

Úvod do zpracování signálů

InternetovéTechnologie

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Natalya Chernykh. Bakalářská práce

Obsah. Část I Základy bezpečnosti...9 Kapitola 1 Základy obvodového zabezpečení Kapitola 2 Filtrování paketů...27

InternetovéTechnologie

SAP Business One Analytics powered by SAP HANA: Analytic Content and Enterprise Search

Přednáška 13 Redukce dimenzionality

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)

Uživatelská podpora v prostředí WWW

Unstructured data pre-processing using Snowball language

Daniel Beneš Slezská univerzita v Opavě Filozoficko-přírodovědecká fakulta Ústav informatiky

Dolování asociačních pravidel

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

V Brně dne a

NLP & strojové učení

Textová data a dobývání znalostí

Státnice odborné č. 20

Vyhledávání informací v prostředí webu mírný pokrok v mezích zákona

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Cross-Site Scripting (XSS)


BA_EM Electronic Marketing. Pavel


ECM. Enterprise Content Management. čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00)

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Jak vybrat správný firewall. Martin Šimek Západočeská univerzita

Vývoj řízený testy Test Driven Development

RELATIONAL DATA ANALYSIS

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

PRODUKTY Tovek Server 6

PRODUKTY. Tovek Tools

Komunikace člověk počítač v přirozeném jazyce

Texto t vá v á d at a a t a dobývání znalostí

Vyhledávání na portálu Knihovny.cz

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Metody založené na analogii

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

Vizualizace v Information Retrieval

MANAŽERSKÉ ROZHODOVÁNÍ ZA VYUŽITÍ METOD PRO ZPRACOVÁNÍ DOKUMENTŮ

Univerzita Pardubice Fakulta ekonomicko správní. Srovnávací studie text miningových nástrojů. Lukáš Hrdlička

FlowMon Vaše síť pod kontrolou

Vilém Sklenák Inforum2009,

Získávání dat z databází 1 DMINA 2010

1. Představení produktu Advance Hospital Analytics

QAD Business Intelligence

Úloha - rozpoznávání číslic

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Extrakce z nestrukturovaných dat

Systém pro poloautomatické propojení textů se zdroji

geekovo minimum počítačového Nadpis 1 Nadpis 2 Nadpis 3

Měření výsledků výuky a vzdělávací standardy

Datová kvalita. RNDr. Ondřej Zýka

ANALÝZA A KLASIFIKACE DAT

VYHLEDÁVÁNÍ NA INTERNETU. Přednášející: Ondřej Douša

Vícerozměrné statistické metody

Algoritmy a struktury neuropočítačů ASN - P11

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

ISSS Národní architektura ehealth

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Využití strojového učení k identifikaci protein-ligand aktivních míst

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Datové sklady. Zdeněk Kouba

Data Science projekty v telekomunikační společnosti

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Monitoring hlasu zákazníka Význam sociálních médií pro Competitive Intelligence

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Uživatelské preference v prostředí webových obchodů. Ladislav Peška, MFF UK

Transkript:

Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha

Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace dat (typicky bag of words ) 2 možné přístupy k text mining: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro text mining 2

Úlohy text mining Vyhledávání informací (information retrieval, IR) dokument chápan jako celek text categorization document clustering document filtering duplication detection sentiment analysis Extrakce informací (information extraction, IE) hledání v dokumentech text summarization template mining 3

Text Mining a SAS: Enterprise Předzpracování textů Text parsing node (převod dokumentu na BoW) Miner Text filtering node (kontrola pravopisu, filtrování termínů, propojení témat, fultextové vyhledávání) Text topics node (reprezentace dokumentů souhrnnějšími tématy s využitím SVD) Text mining Text mining node (převod dokumentu na BoW, propojení témat, shlukování dokumentů SVD, termíny) 4

EM pro IR: předzpracování + běžný data mining 5

Text Parsing node - results 6

Text Filter node - results 7

Text filter node view 8

Text Topics node - results 9

Text Topics node - viewer 10

Běžný data mining téma 11

EM pro IR: speciální algoritmy pro text mining 12

Text Mining node - parsing 13

Text mining node - analýza 14

Běžný data mining SVD dimenze 15

Běžný data mining termín 16

Text Mining a SAS: komponenty Teragram Content categorization + document duplication detection + text summarization + search and indexing + (web crawler, content alerts, MeSH rules, IPTC rules) Sentiment analysis Ontology management 17

SAS Content Categorization Slouží pro kategorizaci dokumentů (IR) Statistické učení Automatické učení pravidel Ruční definice pravidel a identifikaci konceptů v dokumentech (IE) Klasifikační koncepty Gramaticky definované koncepty 18

Kategorizace dokumentů Statistické učení Black box přístup, vznikne hierarchie konceptů Automatické učení Vytvoří se hierarchie pojmů, pro každou se zadá sada ukázkových dokumentů, systém pak pro každou kategorii navrhne kategorizační pravidla s jasnou sémantikou (pojmy vyskytující se v dané kategorii) Ruční Nekvalifikovaná pravidla seznam slov Kvalifikovaná pravidla spec. symboly: (cena@), (*produkt), (-sport), (--vítěz) Vážená lingvistická pravidla 19

Výběr nejvhodnější kategorie Režim frekvenční relevance Match Ratio udává počet termů, které musí být rozpoznány, aby byl dokument klasifikován do dané kategorie Pokud počet rozpoznaných termů dosáhne Match Ratio u více kategorií, vybere se kategorie s nejvyšším absolutním počtem rozpoznaných kategorií Režim 2- zónové frekvenční relevance Rozpoznané termy blíže začátku dokumentu dostanou větší váhu Vhodné pro novinové články 20

Kategorie a termíny 21

Definice konceptů Klasifikační koncept (classifier concept) Koncept je definován seznamem slov nebo pomocí regulárních výrazů Vhodné pro zachycení očekávaných informací, nebo informací, pro které lze sestrojit regulární výraz Gramaticky definovaný koncept (grammar concept) Lze zachytit předem neznámé informace pomocí lingvistických pravidel 22

Gramatický koncept: definování 23

Gramatický koncept: hledání <HearstPattern>life is a mistake</hearstpattern> 24

Podpora češtiny Hledání přídavných jmen: přesnost i úplnost je 13/17=0.75 25

Shrnutí SAS Content Categorization Intuitivní a jednoduchá kategorizace dokumentů pomocí ruční definice kategorií Velmi jemná podpora pro definici gramatických pravidel, které lze využít pro extrakci faktů z textu 26

SAS Document duplication detection (IR) Detekce vzájemné (obsahové) podobnosti dokumentů test/nytimes-sgml/159514.sgml test/nytimes-html/international/asia/16kand.html 0.875 0.843 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-html/garden/16cutt.html 0.849 0.794 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-html/nyregion/thecity/16ctycytt.html 0.804 0.794 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-sgml/145963.sgml 0.928 0.968 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-sgml/165557.sgml 0.980 0.979 SIMILAR test/nytimes-sgml/037435.sgml test/nytimes-html/books/review/16donnelt.html 0.961 0.869 SIMILAR test/nytimes-sgml/161004.sgml test/nytimes-html/national/16croq.html 0.896 0.865 SIMILAR test/nytimes-sgml/037508.sgml test/nytimes-html/books/review/16hellert.html 0.907 0.854 SIMILAR test/nytimes-sgml/092193.sgml test/nytimes-html/magazine/16letters.html 0.797 0.080 PARTLY CONTAINED IN test/nytimes-sgml/037702.sgml test/nytimes-html/books/review/16zelinst.html 0.950 0.884 SIMILAR test/nytimes-sgml/037486.sgml test/nytimes-html/books/review/16gartwot.html 0.978 0.914 SIMILAR test/nytimes-sgml/167991.sgml test/nytimes-html/politics/16hill.html 0.848 0.815 SIMILAR test/nytimes-sgml/165220.sgml test/nytimes-html/nyregion/16rest.html 0.832 0.880 SIMILAR 27

SAS Text Summarization (IE) Vybírá důležité věty z textu Důležitost je dána výskytem uživatelem definovaných konceptů Počet vybraných vět je dán uživatelem Absolutní číslo nebo procento Čím více konceptů ve větě je, tím je důležitější Při definici konceptů je možné využít regulární výrazy a gramatická pravidla, není možné využít lematizátor Možnosti shrnutí Celý dokument Odstavce Sekce 28

build,7 house,7 Věty, ve kterých mají rozpoznané koncepty největší váhu, jsou vloženy do shrnutí. 29

SAS Sentiment analysis (IE) Analýza emočního obsahu dokumentů (např. názorů zákazníků) založená na detekci výskytů slov nesoucích kladné, záporné a neutrální emoce Metody: Statistické modely Ručně definovaná lingvistická pravidla Hybridní 30

SAS Sentiment analysis 31

Možnost využití ve výuce předměty zaměřené na data mining a text mining SAS EM-TM předměty zaměřené na zpracování přirozeného jazyka (NLP) SAS Content Categorization SAS Sentiment analysis SAS TM (parsing, filtering) předměty zaměřené na vyhledávání informací (IR) SAS Content Categorization 32

Děkuji za pozornost Petr Berka berka@vse.cz