Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha

Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace dat (typicky bag of words ) 2 možné přístupy k text mining: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro text mining 2

Úlohy text mining Vyhledávání informací (information retrieval, IR) dokument chápan jako celek text categorization document clustering document filtering duplication detection sentiment analysis Extrakce informací (information extraction, IE) hledání v dokumentech text summarization template mining 3

Text Mining a SAS: Enterprise Předzpracování textů Text parsing node (převod dokumentu na BoW) Miner Text filtering node (kontrola pravopisu, filtrování termínů, propojení témat, fultextové vyhledávání) Text topics node (reprezentace dokumentů souhrnnějšími tématy s využitím SVD) Text mining Text mining node (převod dokumentu na BoW, propojení témat, shlukování dokumentů SVD, termíny) 4

EM pro IR: předzpracování + běžný data mining 5

Text Parsing node - results 6

Text Filter node - results 7

Text filter node view 8

Text Topics node - results 9

Text Topics node - viewer 10

Běžný data mining téma 11

EM pro IR: speciální algoritmy pro text mining 12

Text Mining node - parsing 13

Text mining node - analýza 14

Běžný data mining SVD dimenze 15

Běžný data mining termín 16

Text Mining a SAS: komponenty Teragram Content categorization + document duplication detection + text summarization + search and indexing + (web crawler, content alerts, MeSH rules, IPTC rules) Sentiment analysis Ontology management 17

SAS Content Categorization Slouží pro kategorizaci dokumentů (IR) Statistické učení Automatické učení pravidel Ruční definice pravidel a identifikaci konceptů v dokumentech (IE) Klasifikační koncepty Gramaticky definované koncepty 18

Kategorizace dokumentů Statistické učení Black box přístup, vznikne hierarchie konceptů Automatické učení Vytvoří se hierarchie pojmů, pro každou se zadá sada ukázkových dokumentů, systém pak pro každou kategorii navrhne kategorizační pravidla s jasnou sémantikou (pojmy vyskytující se v dané kategorii) Ruční Nekvalifikovaná pravidla seznam slov Kvalifikovaná pravidla spec. symboly: (cena@), (*produkt), (-sport), (--vítěz) Vážená lingvistická pravidla 19

Výběr nejvhodnější kategorie Režim frekvenční relevance Match Ratio udává počet termů, které musí být rozpoznány, aby byl dokument klasifikován do dané kategorie Pokud počet rozpoznaných termů dosáhne Match Ratio u více kategorií, vybere se kategorie s nejvyšším absolutním počtem rozpoznaných kategorií Režim 2- zónové frekvenční relevance Rozpoznané termy blíže začátku dokumentu dostanou větší váhu Vhodné pro novinové články 20

Kategorie a termíny 21

Definice konceptů Klasifikační koncept (classifier concept) Koncept je definován seznamem slov nebo pomocí regulárních výrazů Vhodné pro zachycení očekávaných informací, nebo informací, pro které lze sestrojit regulární výraz Gramaticky definovaný koncept (grammar concept) Lze zachytit předem neznámé informace pomocí lingvistických pravidel 22

Gramatický koncept: definování 23

Gramatický koncept: hledání <HearstPattern>life is a mistake</hearstpattern> 24

Podpora češtiny Hledání přídavných jmen: přesnost i úplnost je 13/17=0.75 25

Shrnutí SAS Content Categorization Intuitivní a jednoduchá kategorizace dokumentů pomocí ruční definice kategorií Velmi jemná podpora pro definici gramatických pravidel, které lze využít pro extrakci faktů z textu 26

SAS Document duplication detection (IR) Detekce vzájemné (obsahové) podobnosti dokumentů test/nytimes-sgml/159514.sgml test/nytimes-html/international/asia/16kand.html 0.875 0.843 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-html/garden/16cutt.html 0.849 0.794 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-html/nyregion/thecity/16ctycytt.html 0.804 0.794 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-sgml/145963.sgml 0.928 0.968 SIMILAR test/nytimes-sgml/165654.sgml test/nytimes-sgml/165557.sgml 0.980 0.979 SIMILAR test/nytimes-sgml/037435.sgml test/nytimes-html/books/review/16donnelt.html 0.961 0.869 SIMILAR test/nytimes-sgml/161004.sgml test/nytimes-html/national/16croq.html 0.896 0.865 SIMILAR test/nytimes-sgml/037508.sgml test/nytimes-html/books/review/16hellert.html 0.907 0.854 SIMILAR test/nytimes-sgml/092193.sgml test/nytimes-html/magazine/16letters.html 0.797 0.080 PARTLY CONTAINED IN test/nytimes-sgml/037702.sgml test/nytimes-html/books/review/16zelinst.html 0.950 0.884 SIMILAR test/nytimes-sgml/037486.sgml test/nytimes-html/books/review/16gartwot.html 0.978 0.914 SIMILAR test/nytimes-sgml/167991.sgml test/nytimes-html/politics/16hill.html 0.848 0.815 SIMILAR test/nytimes-sgml/165220.sgml test/nytimes-html/nyregion/16rest.html 0.832 0.880 SIMILAR 27

SAS Text Summarization (IE) Vybírá důležité věty z textu Důležitost je dána výskytem uživatelem definovaných konceptů Počet vybraných vět je dán uživatelem Absolutní číslo nebo procento Čím více konceptů ve větě je, tím je důležitější Při definici konceptů je možné využít regulární výrazy a gramatická pravidla, není možné využít lematizátor Možnosti shrnutí Celý dokument Odstavce Sekce 28

build,7 house,7 Věty, ve kterých mají rozpoznané koncepty největší váhu, jsou vloženy do shrnutí. 29

SAS Sentiment analysis (IE) Analýza emočního obsahu dokumentů (např. názorů zákazníků) založená na detekci výskytů slov nesoucích kladné, záporné a neutrální emoce Metody: Statistické modely Ručně definovaná lingvistická pravidla Hybridní 30

SAS Sentiment analysis 31

Možnost využití ve výuce předměty zaměřené na data mining a text mining SAS EM-TM předměty zaměřené na zpracování přirozeného jazyka (NLP) SAS Content Categorization SAS Sentiment analysis SAS TM (parsing, filtering) předměty zaměřené na vyhledávání informací (IR) SAS Content Categorization 32

Děkuji za pozornost Petr Berka berka@vse.cz