Vytěžování znalostí z dat



Podobné dokumenty
Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Cvičení 1,2 Osnova studie strategie ICT

Testování a spolehlivost. 4. Laboratoř Spolehlivostní modely 1

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Další příklady. Katedra softwarového inženýrství. Katedra teoretické informatiky, Fakulta informačních technologii, ČVUT v Praze. Karel Müller, 2011

Teoretický rozbor : Postup měření : a) Neinvertující zesilovač napětí (Noninverting Amplifier)

Základy vytěžování dat

PROHLEDÁVÁNÍ GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Statistická teorie učení

Správa barev pro digitální fotografii

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Normal mission real time system

Kontingenční tabulky a testy shody

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Matematická statistika Zimní semestr

8. Cvičení Kopírování objektů mezi aplikacemi MS Office

Statistika. Jindřich Soukup. University of South Bohemia in České Budějovice Faculty of Fisheries and Protection of Waters, School of complex systems

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Testování a spolehlivost. 6. Laboratoř Ostatní spolehlivostní modely

INFORMATIKA základní úroveň obtížnosti

Mission ctitical real time system

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT EU-OVK-VZ-III/2-ZÁ-210

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

PRINCIPY VÁLEÈNÉ CHIRURGIE

PRINCIPY VÁLEÈNÉ CHIRURGIE

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Měření koncentrace roztoku absorpčním spektrofotometrem

Fakulta chemicko-technologická Faculty of Chemical Technology

Obyvatelstvo. Struktura obyvatelstva podle biologických a ekonomických znaků. 1) Pracujte s odkazem:

Pravděpodobně skoro správné. PAC učení 1

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Datové struktury 2: Rozptylovací tabulky

VLASTNOSTI GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze. BI-GRA, LS 2010/2011, Lekce 5

Struktura a architektura počítačů (BI-SAP) 11

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Naučte se víc... Microsoft Office Excel 2007 PŘÍKLADY


Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

HPS - SEŘÍZENÍ PID REGULÁTORU PODLE PŘECHODOVÉ CHARAKTERISTIKY

Zadání soutěžních úloh

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Pokyny pro autory. (Times, 14, tučně, kapitálky) (Times, 10, tučně, kurzívou) (Times, 10, normálně)

ÚSTAV MATEMATIKY A DESKRIPTIVNÍ GEOMETRIE. Matematika 0A4. Cvičení, letní semestr DOMÁCÍ ÚLOHY. Jan Šafařík

ISU Cvičení 1. Marta Čudová

NG C Implementace plně rekurentní

Architektura počítačů Agenda

Teorie her a ekonomické rozhodování. 7. Hry s neúplnou informací

REZISTIVNÍ DOTYKOVÉ OBRAZOVKY A VYUŽITÍ V UNIVERZÁLNÍM REGULÁTORU Resistive Touch Screens and Usage in a Universal Controller

Office Arena 2017 Krajské kolo

Výukový materiál pro projekt Perspektiva 2010 reg. č. CZ.1.07/1.3.05/ EXCEL příklad. Ing. Jaromír Bravanský, 2010, 6 stran

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

1. LINEÁRNÍ ALGEBRA Vektory Operace s vektory... 8 Úlohy k samostatnému řešení... 8

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

2.7.6 Rovnice vyšších řádů

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

2. Cvičení Formáty dat, jednoduché vzorce

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Moderní systémy pro získávání znalostí z informací a dat

Celostátní kolo soutěže Mladý programátor 2016, kategorie C

Základy vytěžování dat

4EK211 Základy ekonometrie

Návod k ovládání administrační části nového turistického portálu Olomouckého kraje

VZÁJEMNÁ POLOHA DVOU PŘÍMEK V ROVINĚ

Distribuované systémy a výpočty

Aplikace vytěžování dat

MS EXCEL 2010 ÚLOHY. Vytvořte tabulku podle obrázku, která bude provádět základní matematické operace se dvěma zadanými čísly a a b.

Základy programování (IZP)

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Základy programování (IZP)

Přednáška 13 Redukce dimenzionality

TVOŘIVOST UNIVERZITNÍCH STUDENTŮ

MATEMATIKA I - vybrané úlohy ze zkoušek v letech

Integrace ICT na gymnáziu? Petr Naske

Institute of Computer Science

Získávání znalostí z dat

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Bloky, atributy, knihovny

Pokročilé neparametrické metody. Klára Kubošová

Soubory. Hung Hoang Dieu. Department of Mathematics Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 7

České vysoké učení technické v Praze Fakulta biomedicínského inženýrství

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Transkript:

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 6: Rozhodovací stromy BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 2/18 Hra Ano/Ne 1. Stáhněte data o pasažérech Titanicu z Eduxu. 2. Studentsi náhodně vybere řádek z datasetu a ostatní se ho tážou: ojsi muž? / Jsi žena? odospělý / Dítě? opatříš mezi posádku? / Jsi pasažér 1. třídy? / 3. Úkolem je co nejpřesněji uhádnout, zda přežil.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 3/18 Rozhodovací stromy Rozhodovací strom Sestavte zapojení dle schématu: Naimportujtedatasetpomocí Import ConfigurationWizard. Poslední atribut nastavte na label.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 4/18 Rozhodovací stromy Výsledek

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 5/18 Vliv velikosti učícího vzorku Přidejte blok Sample a nastavte ho na relativní velikost: Sledujte vliv velikosti vzorku na velikost stromu o Je tam jedna hraniční velikosti, jaká?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 6/18 Vliv velikosti učícího vzorku Pro 0..0.16 je strom povětšinou jednoduchý, rozlišuje jen muž/žena. Pro 0.16..1 je strom povětšinou dvouúrovňový, rozlišuje muž/žena a příslušnst ke třídě.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 7/18 Vliv velikosti učícího vzorku Nyní pomocí Loop Parameters a X-validation zjistěte přesnost klasifikace při Sample Ratio 0..1

Vliv velikosti učícího vzorku Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 8/18

Vliv velikosti učícího vzorku Je velikost datasetu dostatečná, abychom mohli natrénovat strom? Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 9/18

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 10/18 Vliv velikosti učícího vzorku Na začátku je přesnost klasifikace s vysokým rozptylem, protože se někdy vyberou snadno klasifikovatelné vzorky, jindy zase těžko klasifikovatelné vzorky. Nicméně od 0.16 je rozptyl nižší a přesnost se nezvyšuje rozhodovací strom dosáhl svých mezí.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 11/18 Má smysl předpovídat přežití pasažérů Titanicu?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 12/18 Houby 1/7 Stáhněte si zeduxu dataset houby.zip. Budete určovat, zda je houba jedlá (edible), či nikoliv (poisonous). Poznámka: Tahle úloha je náročná na operační paměť. Pokud chcete změnit limit přidělené paměti, zkonfigurujte spouštěcí skripty RapidMineru (RapidMinerGUI/RapidMinerGUI.bat).

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 13/18 Houby 2/7 Natrénujte rozhodovací strom (DecisionTree). Vložte do Wordu/Writeru obrázek vygenerovaného rozhodovacího stromu. Upravte ho ale tak, aby se dal přečíst bez přiblížení.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 14/18 Houby 3/7 Použijte křížovou validaci (X-validation) a určete spolehlivost klasifikace.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 15/18 Houby 4/7 Použijte další míry pro dělení stromu (informationgane, gini index, accuracy). Jak se liší přesnost klasifikace? Jak se liší stromy?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 16/18 Houby 5/7 Použijte nejlepší model na klasifikaci hub z nezname houby.txt. Jsou všechny houby jedlé?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 17/18 Houby 6/7 (2 body) Místo rozhodovacího stromu použijte les (RandomForest). Nakolik jste si jistí správnou klasifikací hub z nezname houby.txt? Vypočítejte spřesností na 1%.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 18/18 Houby 7/7 (další 2 body) Vyneste graf přesnosti klasifikacev závislosti na počtu atributů. Použijte 0-6 rozhodovacích atributů, kde 0 atributů znamená, že klasifikujete dle majoritní třídy. Pozorování okomentujte. Úlohy mohou mít celkem maximálně rozsah 1 A4. Formát pdf.