Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 1/21 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 10: Shlukování BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 2/21 K-means Hierarchické shlukování Osnova cvičení
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 3/21 Načteme si Iris data K-Means K-Means Vložíme K-meansoperátor Nastavíme K=2
K-Means Zapojíme a prohlédneme si výsledky shlukování Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 4/21
K-Means Pro zobrazení dat a jejich příslišnostido clusterů použijeme graf Scatter 3D color Osy budou atributy a1,a3,a4 a barva hodnota atributu cluster Porovnáme hodnoty získané shlukováním s atributem label Vyzkoušíme pro různé hodnoty k: 2,3,4,5 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 5/21
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 6/21 K=2 K-Means
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 7/21 K=3 K-Means
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 8/21 K=4 K-Means
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 9/21 K-Means Zhodnocení shlukování Pomocí operátoru Cluster Distance Performance spočítáme průměrnou vzdálenost bodu k centroidua Davies Bouldin index
K-Means Úkol Použijte data vygenerovaná operátorem GenerateData s následujícími parametry: Spočítejte within cluster distance (WCD) a Davies Bouldin index (DBI) pro všechny hodnoty K od 2 do 15 Zobrazte graf hodnot WCD a DBI v závislosti na K Jaká je nejlepší hodnota K? Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 10/21
K-Means Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 11/21 Nápověda Použijte operátory Loopparameters, Log a Cluster Distance Performance Pro zobrazení dat z logu použijte typ grafu Series Multiple
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 12/21 Zapojení K-Means Výsledek
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 13/21 K-Means Výsledek
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 14/21 K-Means Výsledek
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 15/21 Hierarchické shlukování Hierarchické shlukování Načteme Iris data Přidáme operátor AglomerativeClustering Zobrazíme dendrogram:
Hierarchické shlukování Vybereme počet shluků a data rozdělíme podle výsledného hierarchického shlukování To odpovídá říznutí dendrogramu v určité hloubce K tomu slouží operátor Flatten Clustering Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 16/21
Postupně nastavíme parametr mode operátoru Aglomerative Clustering na: Single Link Hierarchické shlukování Complete Link Average Link Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 17/21
Hierarchické shlukování Jak se změní dendrogramy? Jak se změní výsledné shlukování pro K=3? Zobrazte jako Scatter 3D Color plot Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 18/21
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 19/21 Hierarchické shlukování Single link
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 20/21 Hierarchické shlukování Completelink
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 21/21 Hierarchické shlukování Averagelink