Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha
Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace dat (typicky bag of words ) 2 možné přístupy k text mining: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro text mining 2
Úlohy text mining Vyhledávání informací (information retrieval, IR) dokument chápan jako celek text categorization document clustering document filtering duplication detection sentiment analysis Extrakce informací (information extraction, IE) hledání v dokumentech text summarization template mining 3
Text Mining a SAS: Enterprise Předzpracování textů Text parsing node (převod dokumentu na BoW) Miner Text filtering node (kontrola pravopisu, filtrování termínů, propojení témat, fultextové vyhledávání) Text topics node (reprezentace dokumentů souhrnnějšími tématy s využitím SVD) Text mining Text mining node (převod dokumentu na BoW, propojení témat, shlukování dokumentů SVD, termíny) 4
EM pro IR: předzpracování + běžný data mining 5
Text Parsing node - results 6
Text Filter node - results 7
Text filter node view 8
Text Topics node - results 9
Text Topics node - viewer 10
Běžný data mining téma 11
EM pro IR: speciální algoritmy pro text mining 12
Text Mining node - parsing 13
Text mining node - analýza 14
Běžný data mining SVD dimenze 15
Běžný data mining termín 16
Text Mining a SAS: komponenty Teragram Content categorization + document duplication detection + text summarization + search and indexing + (web crawler, content alerts, MeSH rules, IPTC rules) Sentiment analysis Ontology management 17
SAS Content Categorization Slouží pro kategorizaci dokumentů (IR) Statistické učení Automatické učení pravidel Ruční definice pravidel a identifikaci konceptů v dokumentech (IE) Klasifikační koncepty Gramaticky definované koncepty 18
Kategorizace dokumentů Statistické učení Black box přístup, vznikne hierarchie konceptů Automatické učení Vytvoří se hierarchie pojmů, pro každou se zadá sada ukázkových dokumentů, systém pak pro každou kategorii navrhne kategorizační pravidla s jasnou sémantikou (pojmy vyskytující se v dané kategorii) Ruční Nekvalifikovaná pravidla seznam slov Kvalifikovaná pravidla spec. symboly: (cena@), (*produkt), (-sport), (--vítěz) Vážená lingvistická pravidla 19
Výběr nejvhodnější kategorie Režim frekvenční relevance Match Ratio udává počet termů, které musí být rozpoznány, aby byl dokument klasifikován do dané kategorie Pokud počet rozpoznaných termů dosáhne Match Ratio u více kategorií, vybere se kategorie s nejvyšším absolutním počtem rozpoznaných kategorií Režim 2- zónové frekvenční relevance Rozpoznané termy blíže začátku dokumentu dostanou větší váhu Vhodné pro novinové články 20
Kategorie a termíny 21
Definice konceptů Klasifikační koncept (classifier concept) Koncept je definován seznamem slov nebo pomocí regulárních výrazů Vhodné pro zachycení očekávaných informací, nebo informací, pro které lze sestrojit regulární výraz Gramaticky definovaný koncept (grammar concept) Lze zachytit předem neznámé informace pomocí lingvistických pravidel 22
Gramatický koncept: definování 23
Gramatický koncept: hledání <HearstPattern>life is a mistake</hearstpattern> 24
Podpora češtiny Hledání přídavných jmen: přesnost i úplnost je 13/17=0.75 25
Shrnutí SAS Content Categorization Intuitivní a jednoduchá kategorizace dokumentů pomocí ruční definice kategorií Velmi jemná podpora pro definici gramatických pravidel, které lze využít pro extrakci faktů z textu 26
SAS Document duplication detection (IR) Detekce vzájemné (obsahové) podobnosti dokumentů test/nytimes-sgml/159514.sgml test/nytimes-html/international/asia/16kand.html 0.875 0.843 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-html/garden/16cutt.html 0.849 0.794 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-html/nyregion/thecity/16ctycytt.html 0.804 0.794 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-sgml/145963.sgml 0.928 0.968 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-sgml/165557.sgml 0.980 0.979 SIMILAR test/nytimes-sgml/037435.sgml test/nytimes-html/books/review/16donnelt.html 0.961 0.869 SIMILAR test/nytimes-sgml/161004.sgml test/nytimes-html/national/16croq.html 0.896 0.865 SIMILAR test/nytimes-sgml/037508.sgml test/nytimes-html/books/review/16hellert.html 0.907 0.854 SIMILAR test/nytimes-sgml/092193.sgml test/nytimes-html/magazine/16letters.html 0.797 0.080 PARTLY CONTAINED IN test/nytimes-sgml/037702.sgml test/nytimes-html/books/review/16zelinst.html 0.950 0.884 SIMILAR test/nytimes-sgml/037486.sgml test/nytimes-html/books/review/16gartwot.html 0.978 0.914 SIMILAR test/nytimes-sgml/167991.sgml test/nytimes-html/politics/16hill.html 0.848 0.815 SIMILAR test/nytimes-sgml/165220.sgml test/nytimes-html/nyregion/16rest.html 0.832 0.880 SIMILAR 27
SAS Text Summarization (IE) Vybírá důležité věty z textu Důležitost je dána výskytem uživatelem definovaných konceptů Počet vybraných vět je dán uživatelem Absolutní číslo nebo procento Čím více konceptů ve větě je, tím je důležitější Při definici konceptů je možné využít regulární výrazy a gramatická pravidla, není možné využít lematizátor Možnosti shrnutí Celý dokument Odstavce Sekce 28
build,7 house,7 Věty, ve kterých mají rozpoznané koncepty největší váhu, jsou vloženy do shrnutí. 29
SAS Sentiment analysis (IE) Analýza emočního obsahu dokumentů (např. názorů zákazníků) založená na detekci výskytů slov nesoucích kladné, záporné a neutrální emoce Metody: Statistické modely Ručně definovaná lingvistická pravidla Hybridní 30
SAS Sentiment analysis 31
Možnost využití ve výuce předměty zaměřené na data mining a text mining SAS EM-TM předměty zaměřené na zpracování přirozeného jazyka (NLP) SAS Content Categorization SAS Sentiment analysis SAS TM (parsing, filtering) předměty zaměřené na vyhledávání informací (IR) SAS Content Categorization 32
Děkuji za pozornost Petr Berka berka@vse.cz