Dobývání znalostí z textů text mining

Podobné dokumenty
Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Dolování z textu. Martin Vítek

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Automatické vyhledávání informace a znalosti v elektronických textových datech

Dobývání znalostí z webu web mining

pomocí hodnoty TFIDF (term frequency inverse document frequency) 4

Dolování asociačních pravidel

InternetovéTechnologie

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Vizualizace v Information Retrieval

InternetovéTechnologie

Textmining a Redukce dimenzionality

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

InternetovéTechnologie

Moderní systémy pro získávání znalostí z informací a dat

Získávání dat z databází 1 DMINA 2010

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Databázové systémy. * relační kalkuly. Tomáš Skopal. - relační model

Strojové učení se zaměřením na vliv vstupních dat

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

Úvod do dobývání. znalostí z databází

Ontologie. Otakar Trunda

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství. ing. Tomáš Vejlupek

Textová data a dobývání znalostí

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Analýzou dat k efektivnějšímu rozhodování

PRODUKTY Tovek Server 6

Automatická oprava textu v různých jazycích

Formální systém výrokové logiky

Přednáška 13 Redukce dimenzionality

Aplikace metod předzpracování při dolování znalostí z textových dat

Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost

Autor: Jan Hošek

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Vytěžování znalostí z dat

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Business Intelligence

KMA/PDB. Karel Janečka. Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d

Úvod do databázových systémů

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

Dobývání a vizualizace znalostí

Texto t vá v á d at a a t a dobývání znalostí

Komunikace člověk počítač v přirozeném jazyce

Algoritmizace prostorových úloh

RELACE, OPERACE. Relace

teorie logických spojek chápaných jako pravdivostní funkce

Popis zobrazení pomocí fuzzy logiky

MANAŽERSKÉ ROZHODOVÁNÍ ZA VYUŽITÍ METOD PRO ZPRACOVÁNÍ DOKUMENTŮ

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Algoritmizace prostorových úloh

Aplikace algoritmů umělé inteligence pro data mining v prostředí realitního trhu

Algoritmy pro shlukování prostorových dat

Výroková logika. Teoretická informatika Tomáš Foltýnek

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

Úvod do databázových systémů

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Využití metod strojového učení v bioinformatice David Hoksza

SQL tříhodnotová logika

Využití SVD pro indexování latentní sémantiky

Diplomová práce Sumarizace rozdílů v recenzních textech

Databáze Bc. Veronika Tomsová

Předzpracování dat. Lenka Vysloužilová

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA

Mgr. Petr Šmejkal.

Univerzita Pardubice Fakulta ekonomicko správní. Srovnávací studie text miningových nástrojů. Lukáš Hrdlička

NPRG030 Programování I, 2010/11

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Úvodem Dříve les než stromy 3 Operace s maticemi

Logika a logické programování

Inteligentní systémy (TIL) Marie Duží

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

Uživatelská podpora v prostředí WWW

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

NPRG030 Programování I, 2016/17 1 / :58:13

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

TEORIE ZPRACOVÁNÍ DAT

Algoritmy a struktury neuropočítačů ASN - P11

PRODUKTY. Tovek Tools

Moderní metody vyhledávání dokumentů v rozsáhlých plnotextových databázích : příklad vektorového modelu

GIS Geografické informační systémy

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

PRODUKTY. Tovek Tools

Výroková logika syntaxe a sémantika

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Dobývání znalostí z databází

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Petr Křemen. Katedra kybernetiky, FEL ČVUT. Petr Křemen (Katedra kybernetiky, FEL ČVUT) Sémantické sítě a rámce 1 / 112

Extrakce a selekce příznaků

Kartografické modelování V Topologické překrytí - Overlay

Transkript:

Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro text mining 2 typy úloh: Vyhledávání informací (information retrieval) práce na úrovni celých dokumentů Extrakce informací (information extraction) analýza obsahu dokumentu P. Berka, 2011 1/18

Reprezentace dokumentu (předzpracování) Nutnost převést volný text na řádek v datové matici: Lexikální analýza (nalezení jednotlivých slov) Lematizace (převedení slova na základní gramatický tvar) ignorování stop-slov (slov, která nenesou informaci o obsahu textu typicky spojky, předložky) řádek v datové matici - vektor který má tolik složek, kolik je možných termínů (bag-of-words). Termíny kódovány: binárně tedy výskyt/nevýskyt v dokumentu, počtem výskytů v dokumentu, @relation analcatdata-authorship @attribute a INTEGER @attribute all INTEGER @attribute also INTEGER @attribute an INTEGER @attribute and INTEGER @attribute any INTEGER @attribute are INTEGER @attribute as INTEGER @attribute at INTEGER @attribute be INTEGER..... @attribute Author {Austen,London,Milton,Shakespeare} @data 46,12,0,3,66,9,4,16,13,13,4,8,8,1,0,1,5,0,21,12,16,3,6,62,3,3,30,3,9,14,1,2,6,5,0,1 0,16,2,54,7,8,1,7,0,4,7,1,3,3,17,67,6,2,5,1,4,47,2,3,40,11,7,5,6,8,4,9,1,0,1,Austen P. Berka, 2011 2/18

pomocí hodnoty TFIDF (term frequency inverse document frequency) TFIDF = n * log M m n je počet výskytů termínu v dokumentu m je počet výskytů termínu v celé kolekci M je počet dokumentů v kolekci Výhody: invariantní vůči pořadí termínů v dokumentu nevyžaduje předzpracování dat Nevýhody: nezachytí víceslovné fráze lze řešit tak, že se místo jednoho termínu kódují fráze, nebo použitím n-gramů např. Mistr Jan Hus: bigramy Mistr Jan, Jan Hus trigramy Mistr Jan Hus nevyužije strukturu dokumentů lze řešit pomocí vah termínů příliš veliká dimenze vektorů (~ 10 000) - je třeba řešit metodami předzpracování selekce atributů metoda obálky = využití hrubé síly počítačů metoda filtru = vyhodnocení relevance jednotlivých termínů transformace atributů např. indexace latentní sémantiky: P. Berka, 2011 3/18

reprezentace dokumentů pomocí menšího počtu konceptů př. předzpracování v SAS text mineru: text parsing P. Berka, 2011 4/18

text filtering P. Berka, 2011 5/18

text topic P. Berka, 2011 6/18

Podobnost dokumentů Pro dva dokumenty x 1 ={x 11,x 12,, x 1m } x 2 ={x 21,x 22,, x 2m } Kosínová míra podobnosti sim C (x 1, x 2 ) = cos (x 1, x 2 ) = x 1 x 2 x 1 x 2 Míra symetrického překrytí sim S (x 1, x 2 ) = j min(x 1j,x 2j ) min( j x 1j, j x 2j ) Diceho míra podobnosti sim D (x 1, x 2 ) = 2 x 1 x 2 x 1 + x 2 = 2 x 1 x 2 j x 1j + j x 2j Jacardova míra podobnosti sim J (x 1, x 2 ) = x 1 x 2 x 1 x 2 = x 1 x 2 j x 1j + j x 2j - x z kde x 1 x 2 = m j=1 x 1j x 2j x = x x = m j=1 x j 2 P. Berka, 2011 7/18

A) Úloha vyhledávání informací (information retrieval) dokument chápan jako celek Information retreival v klasickém smyslu: nalézt dokumenty, které nejlépe odpovídají zadanému dotazu 1. booleovský model = vyhledávací podmínka tvořena pomocí logických spojek AND, OR a NOT neumožňuje vzít do úvahy důležitost termínů v dokumentu neumožňuje vzít do úvahy důležitost termínů v dotazu nabízí jen hrubou škálu (dokument vyhovuje/nevyhovuje) 2. fuzzy rozšíření = využití více hodnot než TRUE, FALSE např. pro dotaz Q zadaný pomocí vážených termínů t j :v j a t k :v k a dokument D obsahující stejné termíny (s vahami w) t j :w j a t k :w k, bude míra relevance R(D,Q) dokumentu D vzhledem k dotazu Q pro dotaz D daný konjunkcí t j :v j AND t k :v k R(D,Q) = min (v j w j,v k w k ) a pro dotaz D daný disjunkcí t j :v j OR t k :v k R(D,Q) = max (v j w j,v k w k ). P. Berka, 2011 8/18

3. vektorový model = využití výše uvedených měr podobnosti hodnocení výsledků vyhledávání přesnost (precision) a úplnost (recall) TP TP Přesnost = Úplnost = TP + FP TP + FN Vztah přesnosti a úplnosti úzké dotazy (AND) naleznou relativně malý počet dokumentů, které jsou většinou relevantní, široké dotazy (OR) naleznou relativně velký počet dokumentů, které ale nebývají většinou relevantní P. Berka, 2011 9/18

Text mining na úrovni dokumentů: text categorization klasifikace dokumentů do více tříd document clustering seskupování dokumentů na základě podobnosti document filtering klasifikace dokumentů do 2 tříd (zajímavé vs. nezajímavé, spam vs. ham) duplication detection hledání podobných dokumentů SAS Document duplication detection P. Berka, 2011 10/18

sentiment analysis klasifikace dokumentů dle emočního obsahu (obvykle 3 třídy: pozitivní, negativní a neutrální emoce) SAS sentiment analysis P. Berka, 2011 11/18

Systémy a algoritmy pro vyhledávání informací algoritmus SMART (System for Manipulating And Retrieving Text) vektorová reprezentace, TFIDF, kosínovou míru a míru symetrického překrytí (Salton, 1971) naivní bayesovský klasifikátor pro klasifikaci dokumentů model založený na pravděpodobnostech P(i-té_slovo_ je_ X dokument_patří_do_třídy) (Lewis, 1991), (Mitchell, 1997), (Grobelnik, Mladenic, 1998) Kohonenova neuronová síť SOM - geometrická interpretace Kohonenovy mapy se převádí na interpretaci pojmovou; čím více jsou dva shluky od sebe v Kohonenově mapě dále, tím rozdílnější obsah odpovídá příslušným dokumentům WebSOM (Honkela, 1996), (Kohonen, 1998) - kategorizace dokumentů na Internetu genetické algoritmy - dokumenty reprezentovány bitovými řetězci (chromozomem) kódujícími výskyt (1) nebo nevýskyt (0) určitého termínu, funkce fit bude odpovídat některé míře podobnosti (např. Jaccardově) mezi dokumentem a dotazem, rovněž reprezentovaným bitovým řetězcem (Gordon, 1988) P. Berka, 2011 12/18

SAS Text Miner P. Berka, 2011 13/18

P. Berka, 2011 14/18

B) Úloha extrakce informací (information extraction) analýza nestrukturovaného textu za účelem nalezení určitého typu informace 1. text summarization: vytvoření souhrnu textu např: SAS Text Summarization Vybírá důležité věty z textu - důležitost je dána výskytem uživatelem definovaných konceptů, čím více konceptů ve větě je, tím je důležitější. Při definici konceptů je možné využít regulární výrazy a gramatická pravidla Možnosti shrnutí: Celý dokument, odstavce nebo sekce 2. named entity recognition: hledání atomických elementů typu jméno osoby, jméno organizace, místní název, časový údaj a pod.) např. (Labský, Svátek, 2007) v rámci projektu MedIEQ P. Berka, 2011 15/18

3. template mining: hledání sekvence slov (obvykle zadáno formou tzv. regulárního výrazu) např. SAS Content Categorization: klasifikační koncept definovaný seznamem slov nebo pomocí regulárních výrazů gramatický koncept definovaný lingvistickými pravidly definice gramatického konceptu nalezení gramatického konceptu P. Berka, 2011 16/18

Hledání přídavných jmen: přesnost i úplnost je 13/17=0.75 4. hledání asociací: mezi výskytem různých frází v souboru dokumentů A S,.. píše-li se o A, píše se současně i o B Systém FACT (Finding Associations in Collections of Text) - aplikace na zprávy o politických událostech (Feldman, Hirsh, 1997) {Iran,USA} Reagan Systém Document Explorer - aplikace na ekonomické texty (Feldman a kol, 1998) america online inc, bertelsmann ag joint venture (13, 0.72) Rozhodující pro provádění automatické extrakce informací je dostatečné množství doménových znalostí. V případě systému FACT to byly geopolitické znalosti a znalosti linguistické (synonyma k vybraným termínům) v případě systému Document Explorer se jednalo o znalosti o firmách. P. Berka, 2011 17/18

Systémy pro text mining Intelligent Miner for Text firmy IBM http://www.software.ibm.com/ Text Analyst firmy Megaputer Intelligence http://www.megaputer.com Text Miner (SAS Institute Inc.) http://www.sas.com/technologies/analytics/datamining/ textminer Po vhodném předzpracování textů do podoby relační tabulky lze použít i běžné systémy pro dobývání znalostí z databází. weka P. Berka, 2011 18/18