APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY FAKULTA EKONOMICKO-SPRÁVNÍ UNIVERZITA PARDUBICE PETR.HAJEK@UPCE.CZ
Objevování znalostí a strojové učení I Objevování znalostí (Knowledge Discovery) je možné definovat jako proces netriviálního dolování implicitních, dosud neznámých a potenciálně užitečných informací z dat. Příkladem znalosti je následující vzorek: IF věk < 25 AND kurs_výchovy_řidičů = Ne THEN nehoda = Ano s_pravděpodobností = 0.2. Tato znalost je ihned srozumitelná a použitelná. Zároveň ji lze vložit do jiného programu (např. ř expertního systému). Málokdy platí objevená znalost pro všechna data. Proto je používána míra určitosti C, která určuje míru důvěry, kterou má mít systém nebo uživatel v objevenou znalost. Bez dostatečné míry určitosti jsou vzorky neopodstatněné a nemohou proto být znalostmi.
Objevování znalostí a strojové učení II Cílem strojového učeníč je vypočítat t takovou funkci f, pomocí které bude možné správně klasifikovat jak data použitá pro její výpočet (tzv. trénovací data), tak i další data mimo množinu trénovacích dat (tzv. testovací data). Metody objevování znalostí mají za úkol jednak identifikovat zajímavé vzorky v datech a jednak je výstižně a smysluplně popsat. p Proces identifikace spočívá ve shlukování záznamů do tříd, které reprezentují vzorky vpůvodních datech. Proces popisu shrnuje důležité vlastnosti identifikovaných tříd. Ve strojovém učení se tyto procesy nazývají učení bez učitele (identifikace) a učení s učitelem (popis).
Systém na objevování znalostí v databázích
Úkoly I Načtěte data German credit do programového prostředí Weka. http://www.uloz.to/9320007/credit-g-cesky-arff Znázorněte histogramy všech atributů. Znázorněte závislosti mezi vybranými atributy t (použijte zvětšení grafu a symbolů). Proveďte selekci atributů (pomocí filtrů např. založenou na korelacích, Chí-kvadrát testu, atd. a wrapperů pomocí zvoleného klasifikátoru) a extrakci nových atributů pomocí metody hlavních komponent. Odstraňte z původní množiny atributů ty, které se ukázaly jako statisticky nevýznamné (např. na základě selekce založené na korelacích s vyhledáváním pomocí genetických algoritmů). Proveďte shlukování vzorků (znázorněte také směrodatné odchylky a porovnejte výsledek se skutečnou klasifikací).
Úkoly II Nastavte t matici i nákladů pro klasifikaci. i Nechte na výstupu zobrazit také predikované hodnoty. Vyzkoušejte rozdělení na trénovací a testovací data v % poměru a 10-násobnou křížovou validaci. Použijte rozhodovací strom SimpleCart, jaké budou výsledky při prořezávání stromu a bez něj? Co když použijete jen trénovací data? Jaké informace dává predikce jednotlivých vzorků? P žijt l áh d ý h h d í h t ů J ký Použijte les náhodných rozhodovacích stromů. Jaký počet stromů je pro daný problém optimální?
Úkoly III Pro dopřednou neuronovou síť typu Perceptron použijte grafické uživatelské prostředí. Vyzkoušejte experimenty pro různé počty neuronů ve skryté vrstvě ě a různé ů rychlosti učení. č U RBF neuronové sítě měňte počet neuronů ve skryté vrstvě. U SVM měňte parametr komplexnosti, popř. typ jádrové funkce (polynomická, RBF). Odstraňte z množiny atributů kvantitativní atributy a vyzkoušejte si tvorbu asociačních pravidel pomocí apriori algoritmu. Jaké budou výsledky, když se změní parametr podpory a parametr určitosti. Jaký počet pravidel je potřeba nastavit?
Načtení dat
Četnosti atributů
Vizualizace závislostí
Datový slovník
Struktura datového souboru
Identifikace tříd
Klasifikační strom
Výsledek klasifikace
Objevování znalostí pomocí oc asociačních ač c pravidel
Neuronové sítě
Dopředná neuronová síť
RBF neuronová o síť ť a Support VectorMachines es
Děkuji za pozornost