Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Podobné dokumenty
Textmining a Redukce dimenzionality

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Základní popis Toolboxu MPSV nástroje

Návod pro práci s SPSS

Základní popis Toolboxu MPSV nástroje

Základy vytěžování dat

Přednáška 13 Redukce dimenzionality

Jak importovat profily do Cura (Windows a

Základy vytěžování dat

ADDRESS BOOK VÍTEJTE V NÁVODU K ADRESÁŘI TALK FUSION

Cvičení č. 2 : POLITICKÁ MAPA VYBRANÉHO KONTINENTU

CAD library. Spuštění aplikace. Práce s aplikací. Popis okna

Průvodce Vyúčtování s přehledem

NAS 208 WebDAV bezpečné sdílení souborů

Google Apps. kontakty. verze 2011

Uživatelský manuál. Format Convert V3.1

Export tabulky výsledků

Nastavení Java pro aplikaci G-Client Str. 1/8

Vytěžování znalostí z dat

Manuál pro ověření digitálního podpisu v pdf dokumentech společnosti EKO-KOM, a.s.

Státnice odborné č. 20

Předmět: Konstrukční cvičení - modelování součástí ve 3D. Téma 17: Další užitečné nástroje

Vytěžování znalostí z dat

Kompletní návod na nákup a čtení eknih ve formátech PDF a epub na PC a MAC

Návod k práci s programem MMPI-2

Vystavení osobního komerčního certifikátu PostSignum v operačním systému MAC OSx

CZ.1.07/2.2.00/ )

INSTRUKCE PRO AKTUALIZACI NAVIGAČNÍHO SYSTÉMU RRC. Tento dokument popisuje postup aktualizace navigačního systému

Instalace. Produkt je odzkoušen pro MS SQL server 2008 a Windows XP a Windows 7. Pro jiné verze SQL server a Windows nebyl testován.

MATLAB Úvod. Úvod do Matlabu. Miloslav Čapek

MATLAB: Automatická instalace a aktivace licence TAH

ČEZ Distribuční služby, s.r.o. Práce s ceníkem xls.

Algoritmy a struktury neuropočítačů ASN P3

Vytěžování znalostí z dat

Google Apps. kontakty 1. verze 2012

Ladibug Software pro vizuální prezentaci Document Camera Návod k použití

Nápověda k aplikaci EA Script Engine

středa A 10 B 20 C 30

Téma 6: Konfigurace počítačů se systémem Windows 7 II

Soukromá střední odborná škola Frýdek-Místek, s.r.o. 4 Forma denní, 5 Forma dálková

Vytěžování znalostí z dat

ČSOB Business Connector

Kompletní návod na nákup a čtení eknih ve formátech PDF a epub na PC i čtečkách s E-Ink technologií (Sony, Nook, a další)

NAS 323 NAS jako VPN Server

Postup získání licence programu DesignBuilder v4

Program slouží k provozní evidenci chemických látek, směsí, archivaci bezpečnostních listů a tvorbě rychlých přehledů.

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Aktualizace firmware fotoaparátu

PRÁCE S GPS a TVORBA MAP

G-Client. Import adresáře do aplikace

Konfigurace PPPoE připojení v OS Microsoft Windows 98, ME

Digitální kartografie 8

Google Apps. weby 2. verze 2012

Aktualizace firmware fotoaparátu

TELEFONNí LiNKA PREMiUM PRŮVODCE APLIKACí T UC-ONE - PC

SOU Valašské Klobouky. VY_32_INOVACE_3_08 IKT PowerPoint Použití šablon Mgr. Radomír Soural. Zkvalitnění výuky prostřednictvím ICT

SOU Valašské Klobouky. VY_32_INOVACE_3_09 IKT PowerPoint Vlozeni_videa Mgr. Radomír Soural. Zkvalitnění výuky prostřednictvím ICT

Nastavení CADprofi pro CAD, aktivace a registrace CADprofi

MS Word pro administrátory projektů Pokročilí

Jak vytvořit pocitovou mapu v QGIS s využitím WMS služeb

Uživatelský modul. wm-bus Concentrator

Průvodce instalací modulu Offline VetShop verze 3.4

Aktualizace firmwaru vybraných fotoaparátů s podporou dat o poloze

PŘECHOD NA FIREBIRD 3.0 V PROSTŘEDÍ WINDOWS

Manuál na pořízení technické změny pomocí webové kalkulačky. Verze 1.2

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Demoprojekt Damocles 2404

Free and open source v geoinformatice. Příloha 2 - Praktické cvičení gvsig

Miroslav Čepek

Téma 4: Správa uživatelského přístupu a zabezpečení II. Téma 4: Správa uživatelského přístupu a zabezpečení II

Uživatelská příručka k portálu Společnost pro kvalitu školy, o.s. část druhá. administrace testování na portálu

Word Lekce III. a IV.

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Elektronická příručka správa projektu

MATLAB: Automatická instalace a aktivace Campus-Wide licence (TAH Total Academic Headcount)

SOFTWARE 5P. Instalace. SOFTWARE 5P pro advokátní praxi Oldřich Florian

Postup instalace přídavného modulu pro Aktuální zůstatky (CBA) v programu MultiCash KB (MCC)

Aktualizace firmware digitálního SLR fotoaparátu

ONLINE Documentation Moeller Internet Sales Application

Formátování pomocí stylů

Vytěžování znalostí z dat

Cvičení č. 1 Začátek práce s GIS

Co děti v kroužku vyzkoušely

Úvod do Matlabu. Praha & EU: Investujeme do vaší budoucnosti. 1 / 24 Úvod do Matlabu

Stručná příručka k aplikaci Cisco Unity Connection Web Inbox (vydání 9.x)

Certifikační autorita EET Modelové postupy vytvoření souboru žádosti o certifikát

2. cvičení: Základní kroky v programu ArcGIS GIS1 tvorba map

Konfigurace PPPoE připojení v OS Microsoft Windows 2000

Vytěžování znalostí z dat

OBSAH... 2 ÚVOD... 3 TYPY INSTALACE... 4


Obsah. při vyšetření pacienta. GDT souboru do programu COSMED Omnia GDT souboru z programu COSMED Omnia a zobrazení výsledků měření v programu MEDICUS

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Aplikace Microsoft Office Outlook 2003 se součástí Business Contact Manager

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

E-Config CAD-data Značky přístrojů Eaton pro schémata zapojení

Aktualizace firmware fotoaparátu

Transkript:

Vytěžování dat 6: Self Organizing Map Michael Anděl Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 10 Slef Organizing Map

SOM Toolbox V dnešním cvičení vám ukážeme SOM Toolbox. Před použitím jej musíte stáhnout a rozbalit. SOM Toolbox se nachází na http://www.cis.hut.fi/somtoolbox/. 2 / 10 Slef Organizing Map

SOM Toolbox (II) Až SOM Toolbox stáhnete, rozbalte jej do nějaké složky (ideálně tam, kde máte ostatní vaše zdrojové soubory). Doporučuji nechat soubory SOM Toolboxu v jednom podadresáři. Tento podadresář musíte přidat do cesty, kde Matlab hledá skripty. Pravým tlačítkem klikněte na adresář se SOM Tooleboxem a vyberte Add to Path Selected Folder and Subfolders. 3 / 10 Slef Organizing Map

SOM Toolbox demo Společně projdeme demo skripty, které ukazují všechny možnosti SOM Toolboxu. Pokud si někdy nebudete vědět rady, projděte si tato dema znovu a většinou v nich najdete, co potřebujete. Dema spoustíte příkazy som demo1, som demo2, som demo3 a som demo4. 4 / 10 Slef Organizing Map

SOM učení z dat Pro načtení dat z.csv souboru používejte funkce importdata. Konverze dat do formátu pro SOM toolbox: somdata = som data struct(... ) Pozor, jako parametr labels (jména vectorů) zadejte zkrácené názvy fór, abyste se pak vyznali v jejich vizualizaci. Normalizace data: somdata = som normalize(somdata) Incializace mapy: map = som randinit(somdata, msize, [height width], lattice, hexa ) Trénování som batchtrain(map, data) nebo som seqtrain). Anotace neuronů podle převládajících dokumentů som autolabel 5 / 10 Slef Organizing Map

SOM vizualizace Zobrazení prázdné mapy: figure(1), som show(map, empty, <name> ). Zobrazení U-matice, např: som show(map, umat, all, colormap, 1-gray). Anotování neuronů: som autolabel Přidání anotace neuronů do mapy: som show add( label, map). Četnost h výskytů fór při jednotlivých neuronech: h = som hits(map, somdata) Přidání histogramu do mapy: som show add( hit,h,) Trakování jednotlivých fór: h1 = som hits(map,data.data(strcmp(data.labels, <forum1> ) h2 = som hits(map,data.data(strcmp(data.labels, <forum2> ) som show add( hit,[h1 h2 h3],) 6 / 10 Slef Organizing Map

Zadání domácího úkolu (z minula) Ze stránek předmětu (cvičení) stáhněte data. Dokumenty obsahují zprávy z několika diskusních fór. Každé fórum má jeden adresář a každá zpráva v něm je jeden soubor. Z dokumentů extrahujte důležitá slova, tj. word-vectory Takto extrahovaná data uložte do CSV souboru. 7 / 10 Slef Organizing Map

Zadání domácího úkolu (2) Pro import do MATLABu můžete použít funkci importdata Pozor, funkce importdata vyžaduje aby textový sloupec (v našem případě labels) byl v.csv souboru jako první Na těchto datech naučte SOM Vizualizujte naučenou sít : Celkovou U-mapu Řezy U-mapy některými pro vás zajímavými slovy Anotace neuronů Histogramy fór Shlukujte jednotlivé neurony algoritmem kmeans clusters Zařazení neuronů do shluků vizualizujte som cplane(map.topol, cluster indices) Prostřednictvím U-mapy a zařazení neuronů do shluků učiňte závěry, zda se dokumenty v jednotlivých fórech podobají nebo ne. 8 / 10 Slef Organizing Map

Obsah zprávy Odevzdávání výhradně formou uploadovaného protokolu! Bude hodnocen i způsob prezentace. Zpráva by měla obsahovat: Z minula (zpracování textu, extrakce příznaků): 1. Popis proudu v Rapidmineru, kterým jste zpracovávali dokumenty, a jeho nejdůležitější parametry. Nezapomeňte uvést rozměry výsledných TFIDF dat. 2. Popis extrakce příznaků pomocí PCA s následnou klasifikací: tj. matematický popis nebo screenshot z RM. Nezapomeňte uvést, kolik komponent jste použili. 3. Pokus o interpretaci některé zajímavé komponenty. 4. Odhady přesnosti klasifikace na surových TFIDF, resp. za použití PCA. 5. Zdůvodnění pozorovaných výsledků. Ze dnes: 1. Doporučené vizualizace 2. Závěry, zda se dokumenty v jednotlivých fórech podobají, plus nalezené souvislosti, tj. které se nejvíce podobají, resp. nepodobají kterým. 9 / 10 Slef Organizing Map

Užitečné příkazy SOM Toolboxu som demo1, som demo2, som demo3, som demo4 som randinit som make som quality som show Kompletní dokumentaci všech funkcí naleznete na http://www.cis.hut.fi/projects/somtoolbox/ package/docs2/somtoolbox.html 10 / 10 Slef Organizing Map