Dolování z textu. Martin Vítek

Podobné dokumenty
Dobývání znalostí z textů text mining

Automatické vyhledávání informace a znalosti v elektronických textových datech

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ANALÝZA A KLASIFIKACE DAT

Moderní systémy pro získávání znalostí z informací a dat

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Textmining a Redukce dimenzionality

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Získávání dat z databází 1 DMINA 2010

Dolování asociačních pravidel

PRODUKTY Tovek Server 6

Analytické procedury v systému LISp-Miner

Uživatelská podpora v prostředí WWW

Automatická oprava textu v různých jazycích

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Využití metod strojového učení v bioinformatice David Hoksza

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Strojové učení Marta Vomlelová

Ontologie. Otakar Trunda

Chybějící atributy a postupy pro jejich náhradu

Vizualizace v Information Retrieval

PRODUKTY. Tovek Tools

Vytěžování znalostí z dat

PRODUKTY. Tovek Tools

Aplikace metod předzpracování při dolování znalostí z textových dat

Sémantický web a extrakce

Kde hledat odborné články?

Jak vypadá opravdová discovery služba

InternetovéTechnologie

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

InternetovéTechnologie

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Marketingový informační systém

Předzpracování dat pro data mining: metody a nástroje

Portál IT komunity v ČR Kamil Matoušek, Jiří Kubalík ČVUT Praha

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

III. Informační systém & databáze

Analýzou dat k efektivnějšímu rozhodování

Katedra kybernetiky, FEL, ČVUT v Praze.

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Univerzita Pardubice Fakulta ekonomicko správní. Srovnávací studie text miningových nástrojů. Lukáš Hrdlička

Učící se klasifikátory obrazu v průmyslu

Kybernetika a umělá inteligence, cvičení 10/11

Přednáška 13 Redukce dimenzionality

InternetovéTechnologie

Analýza obrazu II. Jan Macháček Ústav skla a keramiky VŠCHT Praha

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna

Změkčování hranic v klasifikačních stromech

Dobývání a vizualizace znalostí

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Autor: Jan Hošek

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Microsoft Access tvorba databáze jednoduše

Jan Březina. 7. března 2017

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Využití strojového učení k identifikaci protein-ligand aktivních míst

UNIVERZITA PARDUBICE

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

Úvod do dobývání. znalostí z databází

Dobývání a vizualizace znalostí

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Informační a komunikační technologie

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Výuka IVT na 1. stupni

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

Abychom obdrželi všechna data za téměř konstantních podmínek, schopných opakování:

Tabulkový procesor. Základní rysy

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Dolování dat z dotazníků. Ondřej Takács

NEJVYŠŠÍ SPRÁVNÍ SOUD

Profilová část maturitní zkoušky 2017/2018

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ

Výuka IVT na 1. stupni

Klasifikace hudebních stylů

Pokročilé neparametrické metody. Klára Kubošová

Jan Pecha Josef Dovalil Jiří Suchý

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Dobývání a vizualizace znalostí

Státnice odborné č. 20

SíťIT: Portál na podporu sociální sítě informatiků v ČR

Customer Provider Relationship Monitoring by Association Analyse Means

Informační a komunikační technologie. Informační a komunikační technologie

UČENÍ BEZ UČITELE. Václav Hlaváč

Materiál byl vytvořen v rámci projektu Nové výzvy, nové příležitosti, nová škola

Formáty a dlouhodobé uložení: Identifikace, extrakce a validace

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Transkript:

Dolování z textu Martin Vítek

Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse

Proč dolovat z textu Není problém získat velké množstvíčlánků a informací, ale vybrat z nich ty zajímavé, vztahující se k nějakému problému

Rozdíl proti klasickému dolování znalostí z databází Nevyhledává se ve strukturovaných tabulkách a nějak uspořádaných záznamech ale v prostém textu ve tvaru čitelném pro člověka.

Dolování v textu Skládá se ze 3 částí předzpracování dolování dat upřesnění

Přístupy k dolování v textu Tradiční přístup uživatel dopředu ví, co zhruba hledá, a umí systému předložit množinu dokumentů, které ho zajímají, jako vzorek. Nový přístup systém sám přebírá aktivitu předkládá návrhy uživateli uživatel systém pouze navádí systém sám provádí filtrování, uspořádávání, zobecňování, shlukování dokumentů

Čím je dolování v textu jiné Významným rysem sbírky dokumentů je velké množství vlastností popisujících každý dokument. Typicky tisíce klíčových slov To je mnohem více než počty atributů analyzovaných při dolování z relačních databází

Čím je dolování v textu jiné Tyto vlastnosti jsou zároveň velmi řídké pouze malé % klíčových slov se objevuje v jednotlivých dokumentech Reprezentujeme-li článek vektorem, většina hodnot je 0

Vektorová reprezentace článku Binární pokud se určité slovo v dokumentu vyskytuje více aspoň 1x, bude na jeho pozici ve vektoru 1, jinak tam bude 0. Frekvenční na každé pozici vektoru je počet slova v dokumentu

Vektorová reprezentace článku Reprezentace TF-IDF (term frequency inverse document frequency) zohledňuje výskyty slova v textu a současně snižuje jeho důležitost podle množství výskytu v ostatních dokumentech Hadamardova reprezentace Na i-tém místě ve vektoru bude normovaná frekvence slova v dokumentu násobená frekvencí slova v tréninkové množině

Metoda I. Reprezentovat dokument jako vektor slov Hledat asociační pravidla Nevede k cíli. Nachází těžce interpretovatelná pravidla nebo příliš obecná pravidla...

Metoda II. Automatická konstrukce textových klasifikátorů Založeno na trénovacíchčláncích Použití statistických metod Učení Přiřazuje hodnocení novým neohodnoceným dokumentům na základě množiny už ohodnocených

Další metody Ohodnocováníčlánků podle trénovací množiny ohodnocené expertem Využití strojového učení neuronových sítí metody nejbližšího souseda naivního Bayesova klasifikátoru rozhodovacích stromů

Častý problém Člověk si ukládá pouze informace pro něj zajímavé Nezajímavé ihned zahazuje Je potřeba mít vzorky zajímavých informací i nezajímavých

Metoda III. Použití normalizovaných termů Term je sekvence jednoho nebo více slov spolu s určením slovního druhu Příklad: banka/podstatné jméno roční/přídavné jméno

Extrakce termů

Jazykové odlišnosti Je třeba se zabývat zvláštnostmi jazyka článku předpony a přípony různé pořadí slov ve větě pády množnáčísla...

Generování termů Z jednotlivých termů se hledají složené termy, kterými se pak jednotlivé termy nahrazují. Různé kombinace podstatné jméno & podstatné jméno přídavné jméno & podstatné jméno... Příklad: diskontní sazba

Generování termů Složené termy se mohou dále slučovat Mnoho možností, které všechny dvojice zahrnout Stále otevřený problém pro výzkum

Filtrování termů Fáze generování termů generuje termy bez ohledu na to, jestli jsou nějak charakteristické pro daný dokument. Cílem filtrace je redukce množství termů a výběr jen několika nejfrekventovanějších Je potřeba zahodit termy vyskytující se ve všech dokumentech s konstantním rozložením

Třídění termů Vytvoření taxonomie termů Hledání asociačních pravidel Taxonomie slouží uživateli k zadávání úkolů pro dolování

Podpora produktu SAS Enterprise Miner pro dolování z textu Nástroj SAS Text Miner http://www.sas.com/technologies/analytics/datami ning/textminer/ Transformuje textová data do jiného formátu umožňujícího třídit dokumenty do kategorií, klasifikaci dokumentů, vyhledávání vztahů mezi dokumenty Umí pracovat s textovými daty a současně se strukturovanými daty a integrovat je dohromady

Podpora produktu SAS Enterprise Miner pro dolování z textu Určen pro každého, kdo musí zpracovat velká množství textů Podporuje všechny důležité formáty dokumentů (HTML, MS Office, Lotus, ASCII, PDF) Disponuje moduly a slovníky pro spoustu významných jazyků (čeština ne)

Podpora produktu SAS Enterprise Miner pro dolování z textu Automatická extrakce termů z velkého množství dokumentů Rozlišení termů podle slovních druhů Disponuje slovníky termů z mnoha oblastí lidskéčinnosti Shlukování dokumentů o stejných tématech

Literatura Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2001, 550 p. Handbook of Data Mining and Knowledge Discovery. Oxford University Press 2002 Hroza, J.: Automatizovaná podpora filtrace elektronických textových dokumentů metodami strojového učení, teze disertační práce