Textmining a Redukce dimenzionality

Podobné dokumenty
Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Základy vytěžování dat

Dolování z textu. Martin Vítek

Přednáška 13 Redukce dimenzionality

Základy vytěžování dat

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Úvod do Matlabu. Praha & EU: Investujeme do vaší budoucnosti. 1 / 24 Úvod do Matlabu

Dobývání znalostí z textů text mining

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

První krůčky se SAS Enterprise Miner 6.2. Zaškrtněte Personal Workstation a přihlašte se jako localhost\sasdemo.


EEG Analyzator 1 O PROGRAMU

Návod ke cvičení předmětu BPGA ControlLogix

Vytěžování znalostí z dat

ORIS - Návod pro export dat z jednotlivých program pro nahrání výsledků

Automatické vyhledávání informace a znalosti v elektronických textových datech

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Uživatelská příručka

Aplikace algoritmů umělé inteligence pro data mining v prostředí realitního trhu

Instalační a uživatelská příručka


Unstructured data pre-processing using Snowball language

Průvodce Vyúčtování s přehledem

Vytvoření pokročilé Fotogalerie v Drupalu - Views

Aktivní saldo. Copyright 2009 CÍGLER SOFTWARE, a.s.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Maturitní témata z předmětu PROGRAMOVÉ VYBAVENÍ pro šk. rok 2012/2013

Pokročilé Webové služby a Caché security. Š. Havlíček

Stažení a instalace programu AoA Audio Extractor

DATAMINING SEWEBAR CMS

Vytěžování znalostí z dat

Rozdělení STL pomocí programu MeshMixer

Semestrální úloha 1 z předmětu Programovací jazyk C. Textový merge. Student:

Manuál programu HPSim

Návod na obsluhu softwaru Amobile Sale objednávkový a prodejní software pro PDA a tablety s OS Android.

Návod ke cvičení předmětu BPGA SLC 500

Návod k práci s programem MMPI-2

Projekt Atlasu znečištění ovzduší

Obsah: Bezpečnost Vybavení Vlastnosti Popis a funkce Pracovní postupy Nastavení Záznam teploty...

Průvodce pro přenos dat

ZÁKLADNÍ UŽIVATELSKÝ MANUÁL PRO SÍŤOVÉ FAXOVÁNÍ

Informační systémy 2006/2007

Program slouží k provozní evidenci chemických látek, směsí, archivaci bezpečnostních listů a tvorbě rychlých přehledů.

NLP & strojové učení

Full-textové vyhledávání. Július Štroffek Revenue Product Engineer Sun Microsystems

Analýza dat na PC I.

ADDRESS BOOK VÍTEJTE V NÁVODU K ADRESÁŘI TALK FUSION

Vytěžování znalostí z dat

Návod k použití OOCorr (rošíření OpenOffice.org)

InternetovéTechnologie

Děkujeme vám, že jste si zakoupili přístroj The Little Black Box. Níže uvedené rady by vám měly pomoci s jeho instalací.

Návod na e-learning Alfa Human Service

Export tabulky výsledků

Úvod. OLYMPUS Stream Rychlý návod k obsluze

TECHNICKÉ POŽADAVKY PRO INSTALACI SW PRO ZÁZNAM VIDEA PRO ZÁZNAM AUDIA (ZVUKU) PRO ZÁZNAM OBRÁZKŮ JAZYKOVÉ MUTACE

Získávání znalostí z dat

Programátor AVRProg USB v3 MK II Eco Manuál

Návod pro aktualizaci map a navigačního softwaru pro přístroje ZENEC E>GO (ZE-NC2010, ZE-NC2040, ZE-NC3810, ZE-NC5010) pomocí Toolbox a Synctool

Průvodce Hromadnou registrací online

B Series Waterproof Model. IP Kamera. Uživatelský manuál

MANUÁL K OBSLUZE REDAKČNÍHO SYSTÉMU / wordpress

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

1. Oslovte lidi, kteří už navštívili váš web prostřednictvím okruhů uživatelů, a znovu se s nimi spojte!

ZORRO TESTOVACÍ SCÉNAŘE. anonymizace dokumentů - testovací provoz JMK. Verze 4.12_ ATBON, a.s.

1 Základní funkce pro zpracování obrazových dat

Hard r wa w ro r v o á ko n igu ig ra c řa ř dy d 100V a 200V

Uživatelská příručka Autor: Martin Fiala

Komunikace se SLIO moduly. síti PROFIBUS.

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Aktualizace map přístrojů ZENEC ZE-NC5xx, ZE-NA2000, ZE-NA2000N

Úloha: Verifikace osoby pomocí dynamického podpisu

Rozhodovací stromy a jejich konstrukce z dat

[APLIKACE PRO PŘEHRÁVÁNÍ VIDEA - PROJEKT MIAMI - SERVEROVÁ ČÁST]

Návod na instalaci verze pro PC a USB. 1) Instalace verze pro PC

InternetovéTechnologie

Cvičení č. 1 Začátek práce s GIS

Modul Aspe. Vyšší agregace. Postup Novinky spuštění verze Aspe a přihlášení 9.5 k webovému on-line školení Aspe

Datum zhotovení: Verze dokumentu: 1.00


Nejprve je třeba spustit správce serveru: V něm je třeba vybrat přidání rolí:

VYTVÁŘENÍ A POUŽITÍ VZDĚLÁVACÍCH MODULŮ

Obsah. Úvod Co je KORG KONTROL Editor?... 2 Požadavky na systém... 2 Instalace... 3

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

G-Client. Import adresáře do aplikace

InternetovéTechnologie

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Návod: Jak instalovat aplikace z App Store (vč. registrace bez platební karty)

Generování žádostí o certifikát Uživatelská příručka pro prohlížeč Apple Safari

MLE2 a MLE8. Datalogery událostí

Návod na instalaci esamu v. 4.0

Návod pro připojení k síti VŠPJ prostřednictvím VPN Vysoká škola polytechnická Jihlava

Návod k aktualizaci firmwaru pro Web Server OZW672..., OZW772 a OCI670

LDA, logistická regrese

Website review ciporat.ru

První kroky s METEL IEC IDE

Texto t vá v á d at a a t a dobývání znalostí

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Rozdílová dokumentace k ovládání IS KARAT.net

Transkript:

Vytěžování dat, cvičení 7: Textmining a Redukce dimenzionality Miroslav Čepek, Michael Anděl Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 22 Textmining

Struktura úlohy 6.12.: Předzpracování textů + extrakce příznaků s následnou klasifikací 13.12.: SOM interpretace zpracovaného textu 3.1.: Deadline 2 / 22 Textmining

Základní kroky pro text mining 1. Získání dokumentů a nahrání do Rapidmineru (či jiného SW) 2. Tokenizace (rozklad textu na jednotlivá slova) 3. Odfiltrování častých a nezajímavých slov 4. Převod slov na kořeny slov (stemming) Převod na jednotná čísla Převod různých časování/způsoby/vidy na infinitivy Převod mezi různými variantami slov (příslovce, přídavná jména podstatná jména). 5. Vytvoření word vectoru. (Převod slov na čísla). 6. Tvorba modelu. 3 / 22 Textmining

Instalace rozšíření pro Textmining Standardní instalace Rapidmineru neobsahuje rozšíření pro Textmining. Musíte nainstalovat rozšíření, ale naštěstí je to velmi jednoduché :). Z menu Help vyberte Update RapidMiner. Zde zaklikněte Text Processing a Web Mining. A klikněte na Install. 4 / 22 Textmining

Získání dokumentů a nahrání do Rapidmineru Existuje několik uzlů, pro nahrávání dat do RapidMineru. Pro naše účely, kdy máme dokumenty různých typů v různých složkách, nejlépe vyhovuje uzel Text Processing > Process Documents from Files. Jedná se o super-uzel, který bude obsahovat pod-proud transformující dokumenty na číselné vektory. 5 / 22 Textmining

Extrakce textů z HTML První krok je extrakce textů z HTML (resp. odstranění HTML tagů). Pro to budete potřebovat uzel Extract Content > HTML Processing > Extract Content. 6 / 22 Textmining

Tokenizace Rozklad na jednotlivá slova. Slova se rozdělují typicky podle ne písmenek. Takto získaná slova se označují jako termy. V Rapidmineru existuje uzel Tokenize, který najdete Text Processing > Tokenization > Tokenize. Možnosti rokladu na slova jsou: non-letters, specify-characters, regular expression, linguistic tokens, linguistic token. 7 / 22 Textmining

Tokenizace (2) Zkuste spustit proud nyní. Výsledkem bude word objekt, který si můžete prohlédnout. Uvidíte počty slov podle typů dokumentů. A také celkový počet slov. Každé slovo nakonec bude reprezentovat vstupní proměnnou. 8 / 22 Textmining

Filtrování častých a nezajímavých slov Protože vstupních proměnných bude i tak moc, je vhodné některé z nich eliminovat. První způsob je filtrování obvyklých a nezajímavých slov. V Rapidmineru se to děje uzlem Text Processing > Filtering > Filter Stopwords (English). Tím z dokumentu odstraníte termy (slova), která se v angličtině vyskytují příliš často. Například spojky, běžná slovesa, předložky, apod... Uzel v Rapidmineru obsahuje seznam předdefinovaných slov. 9 / 22 Textmining

Převod slov na kořeny slov Stemming Exituje několik způsobů, jak najít kořen slova. Například hrubou silou tj tabulka mapující každé slovo a každý jeho tvar na odpovídající kořen. Jeden z dalších používaných algoritmů (pro Angličtinu) je tzv. Porterův algoritmus. Iterativně odebírá známé koncovky anglických slov. Má seznam přípon a ty se pokouší postupně odebrat (pokud to lze). Například HOPEFULNESS HOPEFUL HOPE. http://tartarus.org/martin/porterstemmer/def.txt 10 / 22 Textmining

Převod slov na kořeny slov Stemming (2) 11 / 22 Textmining

Kombinace slov - N-Grams Někdy se v dokumentech vyskytují zajímavé kombinace (po sobě jdoucích) slov. N-Gram je term, který obsahuje posloupnost term maximální délky N. Uzel Text Processing > Transformation > Generate n-grams (Terms) vygeneruje vsechny kombinace termů. 12 / 22 Textmining

Kombinace slov 13 / 22 Textmining

Vlastnosti uzlu Process Documents from Files Jednak umožňuje zahodit málo (nebo moc) často se vyskytující termy (slova a n-gramy). Jednotlivé možnosti vybíráte combo-boxem Prune method. Další důležitá věc je zaškrtnout Create word vector. A vybrat vhodnou metodu pro Vector creation. 14 / 22 Textmining

Vytvoření word vectoru Nyní máme slova (termy) a jejich počty v jednotlivých dokumentech. Před předložením shlukovací (či jakékoliv jiné) metodě je potřeba tyto počty nějak přetransformovat. V Rapidmineru jsou na výběr následující možnosti: Term Frequency normalizovaný počet výskytů termu počet výskytu termu ( celkový počet termů ) Term Occurences Binary Term Occurences TF-IDF 15 / 22 Textmining

Term Frequency - Inverse Document Frequency Míra ukazující, jak moc je term specifický pro daný dokument. Zahrnuje v sobě dvě části Term Frequency a Inverse Document Frequency. Term Frequency je definován takto: tf (t) = počet výskytu termu celkový počet termů 16 / 22 Textmining

Term Frequency - Inverse Document Frequency (2) Inverse Document Frequency ukazuje, jak často se vyskytuje term v ostatních dokumentech. idf (t) = log D Celkový počet dokumentů. D {d : t d} {d : t d} Počet dokumentů, ve kterých se term t vysktytuje. 17 / 22 Textmining

Term Frequency - Inverse Document Frequency (3) Term Frequency - Inverse Document Frequency nakonec získáme, když tyto dvě míry vynásobíme. td idf (t, d) = tf (t, d) idf (t) 18 / 22 Textmining

Export dat do CSV a import do MATLABu V RapidMineru bohužel nejsou žádné vhodné shlukovací metody. Čili použijeme Matlab a SOM toolbox. K exportu z RapidMineru použijte Export > Data > Write CSV Pozor, abyste exportovali i labely fór (které budete potřebovat při SOM analýze), je potřeba v uzlu Pocess Documents from Files zaškrtnout Add metainformation a keep text Ostatní metadata, tj. např. Description, Keywords, Language, Robots, Title, label, metadata date, metadata file, metadata path; ale nepotřebujete. Můžete je odstranit pomocí uzlu Select Attributes nebo např. v Excelu. Pro import do MATLABu můžete použít funkci importdata nebo tblread Pozor, funkce importdata vyžaduje aby textový sloupec (v našem případě labels) byl v.csv souboru jako první 19 / 22 Textmining

Zadání úlohy 6.12.: Předzpracování textů + extrakce příznaků s následnou klasifikací: 1. Předzpracujte texty z přiložených 20-ti fór do word-vector reprezentace podle návodu výše. 2. Implementujte v RM knn process a pokuste se klasifikovat data (word vectory) zpět do jednotlivých fór. 3. Opakujte bod 2, tentokrát ale neklasifikujte v prostoru word vectorů, nýbrž v prostoru jejich hlavních komponent. Tj. vytvořte nejdřív rozklad word vectorů do hlavních komponent (blok PCA a teprve v této neové reprezentaci klasifikujte). Pokuste se interpretovat nějakou zajímavou komponentu. 4. Vyčíslete odhad klasifikační přesnosti přístupů 2 a 3. Výsledky srovnejte a zdůvodněte. 5. Exportujte předzpracovaná textová data (tj. word-vectory) a importujte do MATLABu pro SOM. 13.12.: SOM interpretace zpracovaného textu 3.1.: Deadline - report 20 / 22 Textmining

Užitečné zdroje o Textminingu Pokud se chcete podívat, jak se textmining provádí v Rapidmineru, doporučuji následující sérii videí: http://www.youtube.com/watch?v=hpvda_rfg3s http://www.youtube.com/watch?v=ejd2m4r4mbm http://www.youtube.com/watch?v=vhmzui-fmy0 http://www.youtube.com/watch?v=toxzfyecxou http://www.youtube.com/watch?v=brvjwlwsscq http://www.youtube.com/watch?v=9i0bcmuhpe8 Video přednáška o Textminingu http://videolectures.net/ess07_grobelnik_twdmi/ 21 / 22 Textmining

Užitečné zdroje o Textminingu (2) http://eprints.pascal-network.org/archive/ 00000017/01/Tutorial_Marko.pdf http://www.cs.sunysb.edu/~cse634/presentations/ TextMining.pdf 22 / 22 Textmining