Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 6: Rozhodovací stromy BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 2/18 Hra Ano/Ne 1. Stáhněte data o pasažérech Titanicu z Eduxu. 2. Studentsi náhodně vybere řádek z datasetu a ostatní se ho tážou: ojsi muž? / Jsi žena? odospělý / Dítě? opatříš mezi posádku? / Jsi pasažér 1. třídy? / 3. Úkolem je co nejpřesněji uhádnout, zda přežil.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 3/18 Rozhodovací stromy Rozhodovací strom Sestavte zapojení dle schématu: Naimportujtedatasetpomocí Import ConfigurationWizard. Poslední atribut nastavte na label.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 4/18 Rozhodovací stromy Výsledek
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 5/18 Vliv velikosti učícího vzorku Přidejte blok Sample a nastavte ho na relativní velikost: Sledujte vliv velikosti vzorku na velikost stromu o Je tam jedna hraniční velikosti, jaká?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 6/18 Vliv velikosti učícího vzorku Pro 0..0.16 je strom povětšinou jednoduchý, rozlišuje jen muž/žena. Pro 0.16..1 je strom povětšinou dvouúrovňový, rozlišuje muž/žena a příslušnst ke třídě.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 7/18 Vliv velikosti učícího vzorku Nyní pomocí Loop Parameters a X-validation zjistěte přesnost klasifikace při Sample Ratio 0..1
Vliv velikosti učícího vzorku Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 8/18
Vliv velikosti učícího vzorku Je velikost datasetu dostatečná, abychom mohli natrénovat strom? Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 9/18
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 10/18 Vliv velikosti učícího vzorku Na začátku je přesnost klasifikace s vysokým rozptylem, protože se někdy vyberou snadno klasifikovatelné vzorky, jindy zase těžko klasifikovatelné vzorky. Nicméně od 0.16 je rozptyl nižší a přesnost se nezvyšuje rozhodovací strom dosáhl svých mezí.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 11/18 Má smysl předpovídat přežití pasažérů Titanicu?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 12/18 Houby 1/7 Stáhněte si zeduxu dataset houby.zip. Budete určovat, zda je houba jedlá (edible), či nikoliv (poisonous). Poznámka: Tahle úloha je náročná na operační paměť. Pokud chcete změnit limit přidělené paměti, zkonfigurujte spouštěcí skripty RapidMineru (RapidMinerGUI/RapidMinerGUI.bat).
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 13/18 Houby 2/7 Natrénujte rozhodovací strom (DecisionTree). Vložte do Wordu/Writeru obrázek vygenerovaného rozhodovacího stromu. Upravte ho ale tak, aby se dal přečíst bez přiblížení.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 14/18 Houby 3/7 Použijte křížovou validaci (X-validation) a určete spolehlivost klasifikace.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 15/18 Houby 4/7 Použijte další míry pro dělení stromu (informationgane, gini index, accuracy). Jak se liší přesnost klasifikace? Jak se liší stromy?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 16/18 Houby 5/7 Použijte nejlepší model na klasifikaci hub z nezname houby.txt. Jsou všechny houby jedlé?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 17/18 Houby 6/7 (2 body) Místo rozhodovacího stromu použijte les (RandomForest). Nakolik jste si jistí správnou klasifikací hub z nezname houby.txt? Vypočítejte spřesností na 1%.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 18/18 Houby 7/7 (další 2 body) Vyneste graf přesnosti klasifikacev závislosti na počtu atributů. Použijte 0-6 rozhodovacích atributů, kde 0 atributů znamená, že klasifikujete dle majoritní třídy. Pozorování okomentujte. Úlohy mohou mít celkem maximálně rozsah 1 A4. Formát pdf.