Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Podobné dokumenty
Velmi stručný návod jak dostat data z Terminálu Bloomberg do R

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Vytěžování znalostí z dat

Gymnázium Ostrava Hrabůvka, příspěvková organizace Františka Hajdy 34, Ostrava Hrabůvka

PDF Split and Merge. Průvodce programem pro práci s PDF

IP kamera. Uživatelský manuál

AUTOMATICKÉ ZÁLOHOVÁNÍ DATABÁZE PRO SQL Express 2005

Průvodce pro přenos dat

Hotline Helios Tel.: Pokročilé ovládání IS Helios Orange

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý

Tento dokument popisuje instalaci a používání elektronické cvičebnice Styx.

Visual Basic for Application

Doporučené nastavení prohlížeče MS Internet Explorer 7 a vyšší pro Max Homebanking PS s využitím čipové karty

Nápověda k systému CCS Carnet Mini

iviewer pro iphone & ipad & ipod touch Rychlý uživatelský návod

Programátor AVRProg USB v3 MK II Eco Manuál

SCIA.ESA PT. Export a import souborů DWG a DXF

TIA Selection Tool manuál pro použití

Vytěžování znalostí z dat

Evidence přítomnosti dětí a pečovatelek. Uživatelský manuál

Dynavix 10: Evidence jízd

Uživatelská příručka

Postup přechodu na podporované prostředí. Přechod aplikace BankKlient na nový operační systém formou reinstalace ze zálohy

apilot - První kroky Publikační platforma apilot První kroky

ÚLOHA 6. Úloha 6: Stěžejní body tohoto příkladu:

Free and open source v geoinformatice. Příloha 2 - Praktické cvičení gvsig

Windows 8.1 (5. třída)

Software602 FormApps Server

Základní popis Toolboxu MPSV nástroje


OUTLOOK ADDIN PRO SYNCHRONIZACI S AKTIVITAMI RAYNET CRM - POUŽITÍ

Obsah. při vyšetření pacienta. GDT souboru do programu COSMED Omnia GDT souboru z programu COSMED Omnia a zobrazení výsledků měření v programu MEDICUS

Tvorba video-návodu k chemickému pokusu

ECCManager. Uživatelská příručka

MONITORING OBCHODNÍCH PARTNERŮ

Příprava dat v softwaru Statistica

Zadání: TÉMA: Zápis algoritmu, čtení textového souboru, porovnání řetězců.

Průvodce instalací modulu Offline VetShop verze 3.4

Manuál pro ověření digitálního podpisu v pdf dokumentech společnosti EKO-KOM, a.s.

Přihlášení k webmailu a jeho nastavení

Modul IRZ návod k použití

2) Zkontrolujte načtený název souboru pro instalaci certifikátu a pokračujte stisknutím tlačítka Další.

WinFAS. obecné. Praktický úvod do WinFASu IQ sestavy podrobně. Strana 1

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Úvod do Matlabu. Praha & EU: Investujeme do vaší budoucnosti. 1 / 24 Úvod do Matlabu

ppesystem Elektronický nástroj pro řízení firemních nákupních operací a veřejných zakázek modul B2B a VZ verze 1.01

Reliance 3 design OBSAH

TEST UČEBNÍCH STYLŮ INSTRUKCE

Uživatelský manuál. GV-Remote Viewlog. klient pro vzdálené přehrávání záznamů

Stručný návod k elektronickému ohlášení změn v aplikaci ilpis

Nápověda k systému CCS Carnet Mini. Manuál k aplikaci pro evidenci knihy jízd

Návod pro obsluhu přístroje ZEEnit 650 Stanovení kadmia v kapalném vzorku pomocí ETAAS

Prozkoumání příkazů na pásu karet Každá karta na pásu karet obsahuje skupiny a každá skupina obsahuje sadu souvisejících příkazů.

UNIVERZITA PARDUBICE Fakulta elektrotechniky a informatiky Katedra softwarových technologií

PRACUJEME S TSRM. Modul Samoobsluha

UniLog-D. v1.01 návod k obsluze software. Strana 1

Doklady, u kterých dodavatelé použijí ustanovení 92a zákona o DPH, je třeba do programu zapsat následovně:

Základní popis Toolboxu MPSV nástroje

Základní vzhled hlavního okna vystihuje obrázek 1.1. Popis jeho hlavních částí označených

Microsoft Publisher 2013 vypadá jinak než ve starších verzích, proto jsme vytvořili tuto příručku, která vám pomůže se s ním rychle seznámit.

Uživatelská příručka k portálu Společnost pro kvalitu školy, o.s. část druhá. administrace testování na portálu

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

NAS 232 Aplikace AiFoto pro mobilní zařízení. Správa fotografií na vašem NAS z mobilního zařízení

Návod na instalaci upgrade

Popis ovládání. Po přihlášení do aplikace se objeví navigátor. Navigátor je stromově seřazen a slouží pro přístup ke všem oknům celé aplikace.

Návod k e-learningové aplikaci. Netventic Learnis LMS

PŘÍRUČKA PRÁCE SE SYSTÉMEM SLMS CLASS pro učitele

Instalační příručka. Vlastnoruční digitální podpis. Instalace ovladačů a rozšíření na uživatelský počítač

Uživatelský manuál pro lektora e-learningového portálu MAFIDIS+

Program slouží k provozní evidenci chemických látek, směsí, archivaci bezpečnostních listů a tvorbě rychlých přehledů.

Instalace pluginů pro formuláře na eportálu ČSSZ

Babyware Software pro nastavení a naprogramování ústředen Instalační příručka

CERTIFIKOVANÉ TESTOVÁNÍ (CT) Výběrové šetření výsledků žáků 2014

Elektronická evidence činnosti studentů DSP na FLD Česká zemědělská univerzita v Praze

Průvodce Vyúčtování s přehledem

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

METODICKÝ POKYN PŘIDÁNÍ A PŘEHRÁNÍ VIDEA V PREZENTACI

ABRA Software a.s. ABRA on- line

Cvičení č. 2 : POLITICKÁ MAPA VYBRANÉHO KONTINENTU

Program slouží k provozní evidenci chemických látek, směsí, archivaci bezpečnostních listů a tvorbě rychlých přehledů.

Postup pro přihlášení k EET

OBSAH. 1. Úvod Požadavky na SW vybavení... 3

NASTAVENÍ PROGRAMU EVIDENCE AUTOBAZARU PRO OS VISTA, WIN7 a WIN8 LOKÁLNÍ INSTALACE (PRO 1 POČÍTAČ)

Alsenta.com Zbynek Lakomý

Výdej dat územně analytických podkladů pro obce

Manuál k e-learningovému vzdělávacímu modulu 1 MODUL HIGH-TECH POTRAVINY. Popularizace zdraví Po.Zdrav (CZ.1.07/3.1.00/ )

LAN se používá k prvnímu nastavení Vašeho DVR a když potřebujete nastavit síť na Vašem DVR pro používání po internetu.

Návod na elektronické odevzdání ročních statistik na ÚZIS

Průzkumník IS DP. Návod k obsluze informačního systému o datových prvcích (IS DP) vypracovala společnost ASD Software, s. r. o.

Použití prezentací. K heslovitému sdělení informací. Oživení obrázky, schématy, tabulkami, Nevhodné pro dlouhé texty. Doprovodná pomůcka při výkladu

Tabulkový kalkulátor

Postup instalace síťové verze Mount Blue

ČSOB Business Connector

Vystavení osobního komerčního certifikátu PostSignum v operačním systému MAC OSx

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Tabletová aplikace. Uživatelský manuál

Gluco Diary Elektronický diář měření krevní glukózy

Nejčastější dotazy na Kukátko

Certifikační autorita PostSignum

Transkript:

Vytěžování dat, cvičení 2: Úvod do RapidMineru Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 23 Úvod do RapidMineru

Dnes vám ukážeme jeden z mnoha grafických nástrojů pro data mining (aneb nejen příkazovou řádkou živ je člověk). Existuje několik open-source nástrojů pro datamining. A ten, se kterým si budeme hrát se jmenuje RapidMiner. 2 / 23 Úvod do RapidMineru

Webové odkazy na Rapidminer Rapidminer najdete na adrese http://rapid-i.com. Stahovat jej můžete z adresy http://rapid-i.com/content/view/26/84/lang,en/. Stáhněte RapidMiner ze stránek výrobce a nainstalujte jej (můžete do školních počítčů nebo, pokud máte, do vašich notebooků alespoň to nebudete muset dělat doma znovu :) ) Spust te jej. 3 / 23 Úvod do RapidMineru

Rapidminer, úvodní obrazovka 4 / 23 Úvod do RapidMineru

Rapidminer, úvodní obrazovka 5 / 23 Úvod do RapidMineru

Načtení dat do Rapidmineru Prvním úkolem je načíst data do RapidMineru. Ze stránek cvičení stáhněte soubor iris.csv. V seznamu operátorů vyberte uzel (operátor) Import > Data > Read CSV a přetáhněte jej do procesu. Měl by se vám automaticky napojit na výstupní vizualizace. 6 / 23 Úvod do RapidMineru

Načtení dat do Rapidmineru (2) Výsledek by měl vypadat přibližně tak, jak ukazuje obrázek: Všimněte si také, že Rapidminer vám říká, že jste nezadali povinný parametr (název souboru, který chcete načíst). 7 / 23 Úvod do RapidMineru

Načtení dat do Rapidmineru (3) Napravit tuto chybu můžete bud : kliknutím na Set mandatory parameter v dolní záložce se zprávou o chyě nebo doplňením hodnoty v záložce Paramateres nebo klinutím na tlačítko Import Configuration Wizard v záložce Paramateres. My si vybreme poslední možnost. Takže klikněte :). 8 / 23 Úvod do RapidMineru

Průvodce načtením dat Na první obrazovce průvodce vyberte stažený soubor. Druhý krok průvodce se ptá na vlastnosti dat v souboru. Zde nastavte oddělovač sloupců na čárku (comma). Ve třetím kroku vám průvodce jen nabídne náhled na data. A v posledním kroku můžete (zde musíte) vybrat správný typ dat v jednotlivých sloupcích a jejich roli. U posledního sloupce (class) nastavte typ na Polynomial a roli na label. A dokončete průvodce. 9 / 23 Úvod do RapidMineru

Spuštění proudu Nyní je již proud v pořádku a můžeme jej spustit pomocí ikonky. 10 / 23 Úvod do RapidMineru

Zobrazení výsledků Po dokončení zpracování proudu se vás RapidMiner dotáže, zda chcete přepnout do Result Perspective. Mezi perspektivami se můžete přepínat pomocí ikonek v panelu nástrojů. Případně z menu View > Perspectives. 11 / 23 Úvod do RapidMineru

Zobrazení výsledků (2) V Result Perspective získáte jednu záložku za každý výstup připojený připojený na pravý okraj plochy. Aktuálně si zde můžete prohlédnout jednoduchou popisnou statistiku a různé grafické znázornění načtených dat. Vyzkoušejte! Při zkoumání grafického výstupu se podívejte také na bodové grafy (Scatter plot) a matici bodových grafů (scatter plot matrix). 12 / 23 Úvod do RapidMineru

Vložení modelu do proudu a jeho zobrazení Jedna z jednoduchých modelovacích metod pro učení s učitelem je rozhodovací strom. V principu je to posloupnost otázek, které navigují k rozhodnutí (třídě do které instanci/objekt zařadíte). Pokud jste někdy viděli kĺıč k určování rostlin, tak to je přesně ono. Podle jakých pravidel se rozhodovací stromy vytváří necháme ted stranou a necháme Rapidminer at nám nějaký strom vytvoří. Najděte uzel Modelling > Classification and Regression > Tree Induction > Decision Tree, přetáhněte jej do proudu. 13 / 23 Úvod do RapidMineru

Vložení modelu do proudu Na vstup připojte výstup uzlu Read CSV a výstup připojte na pravou stranu vizualizací. Výsledný proud by pak měl vypadat zhruba takto: 14 / 23 Úvod do RapidMineru

Zobrazení výsledného modelu Spust te proud a přepněte se do Result Perspective. V záložce věnované modelu byste měli uvidět podobný obrázek: Jaké podmínky použil strom pro rozhodování? Dokázali byste tyto podmínky vyjádřit třeba v Javě? Co znamenají ty červené, zelené a modré pruhy v listech? 15 / 23 Úvod do RapidMineru

Aplikace modelu na data Co ted s hotovým modelem :)? Můžeme jej aplikovat na data se známou klasifikací a získat tak představu, jak si model vede, s neznámou klasifikací a získat tak předpokládaný výstup. My zkusíme nejprve aplikovat model na trénovací data. 16 / 23 Úvod do RapidMineru

Aplikace modelu na data (2) Najděte uzel Modeling > Model application > Apply model a vložte jej mezi rozhodovaní strom a pravý vizualizační okraj. Spust te a zjistěte jak vypadá výstup? Které kosatce klasifikuje model špatně? 17 / 23 Úvod do RapidMineru

Zobrazení úspěšnosti modelu na trénovacích datech Kolik procent kosatců je špatně klasifikováno? Abyste je nemuseli počítat ručně, Rapidminer nabízí uzel Performance. Zapojte ji tedy na konec proudu a jeho výstup opět přived te k pravému okraji. 18 / 23 Úvod do RapidMineru

Přesnost a matice záměn Ve výstupu uzlu performance můžete uvidět jednak procento správně klasifikovaných kosatců a druhak matici záměn. Procento správně oklasifikovaných vzorů říká (celkem nepřekvapivě), v kolika procentech se povedlo modelu zařadit vzor (kosatec) do správné třídy. Matice záměn říká do kterých tříd model klasifikoval jaké množství instancí a jak je to s nimi ve skutečnosti. 19 / 23 Úvod do RapidMineru

DŮLEŽITÉ UPOZORNĚNÍ POZOR procento úspěšně klasifikovaných vzorů (v tomto případě kosatců) vůbec neříká, jak moc je model dobrý. Ještě navíc, když testujeme model na datech, na kterých jsme jej učili! Je to jako kdybychom vám dali otázky dopředu a pak se na ně ptali. Tím bychom vás nezkoušeli z látky, ale z toho, jak si umíte zapamatovat správné odpovědi. A pak vás i jen trochu jinak formulovaná otázka dokonale zmate, stejně tak může model zmást trošku jiný vzor (kosatec). Tomu se lze čelit například tím, že vytvořený modelu necháte oklasifikovat data, která doposud neviděl tzv. testovací množinu. Tím získáte trochu lepší představu, jak je model dobrý. (Ale existují i další techniky, o kterých si řekneme v průběhu semestru). 20 / 23 Úvod do RapidMineru

2. zápočtová úloha - zadání Na stránkách předmětu si vyberete data, která budete zpracovávat v programu Rapidminer a z výstupů Rapidmineru vytvoříte krátký report. Váš proud by měl dělat zhruba následující: Načte vaše vybraná a stažená data. Rozděĺı data na trénovací a testovací množinu v poměru 2:1 (operátor Split Data). Vytvoříte rozhodovací strom z trénovacích dat. Zjistěte chybu vytvořeného stromu na trénovacích a testovacích datech. 21 / 23 Úvod do RapidMineru

2. zápočtová úloha - obsah reportu Váš report by měl obsahovat následující výstupy z Rapidmineru: Základní statistiku vstupních dat, tj. pro každý numerický atriut průměr a rozsah hodnot, pro atributz nominální pak počty hodnot. Můžete přidat i bodové grafy nebo matici bodových grafů (scatter plot nebo scatter plot matrix), případně jiné grafy, pokud se vám budou zdát užitečné. Vizualizaci rozhodovacího stromu (obrázek) a tento strom přepsaný do formy if-then podmínek (použijte Javovskou nebo Matlabovskou syntaxi). Matici záměn (confusion matrix) pro trénovací a testovací data, přesnost klasifikace a krátký komentář, jestli se vám zdá přesnost (accuracy) dostatečná, případně která třída přesnost kazí. 22 / 23 Úvod do RapidMineru

Další zdroje Stránky Rapidmineru: http://rapid-i.com Video tutoriály, základní práce s RapidMinerem: http://rapid-i.com/content/view/189/212/lang,en Uživatelský manuál v PDF http://sourceforge.net/ projects/rapidminer/files/1.%20rapidminer/5.0/ rapidminer-5.0-manual-english_v1.0.pdf/download 23 / 23 Úvod do RapidMineru