1... Základní úlohy. Učení s učitelem a bez učitele. Petr Pošík Katedra kybernetiky ČVUT FEL P. Pošík c 2010 Aplikace umělé inteligence 1 / 36
Obsah P. Pošík c 2010 Aplikace umělé inteligence 2 / 36
Co bylo v ZUI? Co bude v AUI? P. Pošík c 2010 Aplikace umělé inteligence 3 / 36
Co bylo v ZUI? Prohledávání st. prostoru, učení z příkladů konstruktivní neinformované a informované metody Induktivní učení popisu konceptu v predikátové logice generativní metody, deterministické a stochastické Splňování omezujících podmínek Evoluční algoritmy Posilované učení Plánování Plánování jako prohledávání stavového prostoru Reprezentace, fitness, křížení, mutace, selekce Aplikace Znalosti, reprezentace, výroková logika Predikátová logika, Prolog Neurčitost, pravděpodobnost, Bayesovské sítě popis úloh v jazyce STRIPS partially ordered plans Neuronové sítě Typy NN, úlohy pro NN (s učitelem, bez učitele) Trénovací, validační, testovací Učení NN, error backpropagation Aplikace P. Pošík c 2010 Aplikace umělé inteligence 4 / 36
Co bude v AUI? Co bylo v ZUI? Co bude v AUI? Předběžný plán přednášek: 1., základní úlohy, učení s učitelem a bez učitele 2. Lineární diskriminační funkce, perceptronový algoritmus, rozšíření báze 3. Optimální rozdělující nadplocha, SVM 4. Neuronové sítě, zpětné šíření chyby 5. Učení bez učitele, hierarchické shlukování, k-means a EM algoritmus. 6. Neuronové sítě - RBF, Kohonenova sít, autoasociativní sít 7. Generativní metody prohledávání stavového prostoru, EA s reálnou reprezentací 8. Alternativní přírodou inspirované techniky ACO, PSO 9. Základní techniky UI pro plánování 10. Úvod do multiagentních systémů a agentních technologií 11. Plánování ve výrobě a v logistice (ukázky systému) 12. Simulace, diagnostika a inteligentní robotika (ukázky systému) P. Pošík c 2010 Aplikace umělé inteligence 5 / 36
Definice Rozdílné pohledy na data Účel DM Zdroje DM Úlohy pro DM CRISP-DM P. Pošík c 2010 Aplikace umělé inteligence 6 / 36
Definice Definice Rozdílné pohledy na data Účel DM Zdroje DM Úlohy pro DM CRISP-DM je netriviální dobývání skrytých, předem neznámých a potenciálně užitečných informací z dat. Při jejich objevování se využívají expertní systémy, metody umělé inteligence a strojového učení, statistické, grafické a vizualizační techniky a prezentují se způsobem srozumitelným lidem. [FSM92] Český překlad Dolování dat Vytěžování dat Dobývání znalostí z databází (překlad KDD - knowledge discovery in databases) Co má data mining společného s aplikacemi umělé inteligence? DM: obsáhlý proces zahrnující mnoho fází orientovaný na praktický přínos, na aplikace Metody umělé inteligence, strojového učení a rozpoznávání se uplatňují především ve fázi modelování, ale také v několika dalších fázích procesu DM. P. Pošík c 2010 Aplikace umělé inteligence 7 / 36
Rozdílné pohledy na data Definice Rozdílné pohledy na data Účel DM Zdroje DM Úlohy pro DM CRISP-DM Exploratorní analýza dat Průzkum dat, první seznámení s daty, formulujeme hypotézy. Hojně se využívají grafické techniky. P. Pošík c 2010 Aplikace umělé inteligence 8 / 36
Rozdílné pohledy na data Definice Rozdílné pohledy na data Účel DM Zdroje DM Úlohy pro DM CRISP-DM Exploratorní analýza dat Průzkum dat, první seznámení s daty, formulujeme hypotézy. Hojně se využívají grafické techniky. Konfirmatorní analýza dat Máme hypotézy, data slouží jako prostředek pro jejich ověření. Využívají se statistické metody (ANOVA, regrese, χ-kvadrát testy,... ) P. Pošík c 2010 Aplikace umělé inteligence 8 / 36
Rozdílné pohledy na data Definice Rozdílné pohledy na data Účel DM Zdroje DM Úlohy pro DM CRISP-DM Exploratorní analýza dat Průzkum dat, první seznámení s daty, formulujeme hypotézy. Hojně se využívají grafické techniky. Konfirmatorní analýza dat Máme hypotézy, data slouží jako prostředek pro jejich ověření. Využívají se statistické metody (ANOVA, regrese, χ-kvadrát testy,... ) Máme data a chceme vytvořit modely, které fungují a jsou použitelné pro predikce. 1 Využití metod umělé inteligence, strojového učení,... 1 V obchodních a marketingových aplikacích bývá druhořadé, zda tyto modely popisují skutečné závislosti a děje. Při aplikaci metod strojového učení např. na biologické a medicinské aplikace je správnost vyžadována mnohem více. P. Pošík c 2010 Aplikace umělé inteligence 8 / 36
Účel DM Definice Rozdílné pohledy na data Účel DM Zdroje DM Úlohy pro DM CRISP-DM DM je orientován na praktickou využitelnost výsledků, hlavně ve formě predikcí (exploratorní analýza dat naproti tomu slouží spíše k popisu dat, výzkumníky při ní napadají souvislosti, které stojí za ověření) Jde hlavně o vytvoření, který přináší užitek, tj., jehož prognózy budou trefné, klasifikace použitelné (a zisky a úspory z něj plynoucí znatelné) Příklady otázek, na něž DM umí dát (přibližnou) odpověd : Kolik člověkohodin bude třeba příští měsíc odpracovat na ARO? Kolik asi bude stát pozemek 20 km severně od Prahy? Odpoví konkrétní člověk z naší databáze na nabídku, kterou bychom mu zaslali? Které produkty se prodávají společně? Které produkty si lidé kupují poté, co si koupili jiné? P. Pošík c 2010 Aplikace umělé inteligence 9 / 36
Zdroje DM Definice Rozdílné pohledy na data Účel DM Zdroje DM Úlohy pro DM CRISP-DM P. Pošík c 2010 Aplikace umělé inteligence 10 / 36
Typy úloh řešených pomocí DM Definice Rozdílné pohledy na data Účel DM Zdroje DM Úlohy pro DM CRISP-DM Popis dat Vizualizace Sumarizace Hledání nugetů Dominantní struktury, asociační pravidla Segmentace, shluková analýza, popis rozdělení dat Predikce Klasifikace (predikce kategoriální proměnné) Regrese (predikce spojité proměnné) Časové řady (predikce závislé na čase) P. Pošík c 2010 Aplikace umělé inteligence 11 / 36
DM jako proces: CRISP-DM Definice Rozdílné pohledy na data Účel DM Zdroje DM Úlohy pro DM CRISP-DM Cross-Industry Standard Process for Data Mining P. Pošík c 2010 Aplikace umělé inteligence 12 / 36
AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh P. Pošík c 2010 Aplikace umělé inteligence 13 / 36
AI, ML, PR AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Umělá inteligence (Artificial Intelligence, AI) [McC04]: Věda o sestavování inteligentních strojů. AI studuje: inteligentní chování, učení, adaptaci ve strojích a počítačích AI zahrnuje: řízení, plánování a rozhodování, expertní systémy, rozpoznávání ručně psaných znaků, přirozeného jazyka, mluvené řeči, obličejů,... P. Pošík c 2010 Aplikace umělé inteligence 14 / 36
AI, ML, PR AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Umělá inteligence (Artificial Intelligence, AI) [McC04]: Věda o sestavování inteligentních strojů. AI studuje: inteligentní chování, učení, adaptaci ve strojích a počítačích AI zahrnuje: řízení, plánování a rozhodování, expertní systémy, rozpoznávání ručně psaných znaků, přirozeného jazyka, mluvené řeči, obličejů,... (Machine Learning, ML) studuje algoritmy umožňující strojům učit se. ML zahrnuje: syntaktické rozpoznávání, diagnostické systémy, bioinformatika, detekce zneužití kreditních karet, analýza akciového trhu, klasifikace DNA sekvencí, rozpoznávání ručně psaných znaků, přirozeného jazyka, mluvené řeči, obličejů, navigace robota,... P. Pošík c 2010 Aplikace umělé inteligence 14 / 36
AI, ML, PR AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Umělá inteligence (Artificial Intelligence, AI) [McC04]: Věda o sestavování inteligentních strojů. AI studuje: inteligentní chování, učení, adaptaci ve strojích a počítačích AI zahrnuje: řízení, plánování a rozhodování, expertní systémy, rozpoznávání ručně psaných znaků, přirozeného jazyka, mluvené řeči, obličejů,... (Machine Learning, ML) studuje algoritmy umožňující strojům učit se. ML zahrnuje: syntaktické rozpoznávání, diagnostické systémy, bioinformatika, detekce zneužití kreditních karet, analýza akciového trhu, klasifikace DNA sekvencí, rozpoznávání ručně psaných znaků, přirozeného jazyka, mluvené řeči, obličejů, navigace robota,... Rozpoznávání (Pattern Recognition, PR) je proces, na jehož vstupu jsou surová data a na výstupu je nějaká akce závislá na kategorii pozorovaných dat. Klasifikace dat založená na apriorních znalostech nebo na statistických informacích extrahovaných z dat. PR zahrnuje: syntaktické rozpoznávání, detekce zneužití kreditních karet, analýza akciového trhu, klasifikace DNA sekvencí, rozpoznávání ručně psaných znaků, přirozeného jazyka, mluvené řeči, obličejů, navigace robota,... P. Pošík c 2010 Aplikace umělé inteligence 14 / 36
Rozpoznávání AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Rozpoznávání: Statistické, příznakové usuzování podle spojitých či diskrétních znaků měřených na objektu Strukturální usuzování podle vztahů mezi jednotlivými prvky objektu (často: struktura objektu odvozené příznaky příznakové rozpoznávání) Druhy veličin (pro příznakové rozpoznávání): Spojité vs. diskrétní Nezávislé (vstupy) vs. závislé (výstupy) P. Pošík c 2010 Aplikace umělé inteligence 15 / 36
Rozpoznávání AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Rozpoznávání: Statistické, příznakové usuzování podle spojitých či diskrétních znaků měřených na objektu Strukturální usuzování podle vztahů mezi jednotlivými prvky objektu (často: struktura objektu odvozené příznaky příznakové rozpoznávání) Druhy veličin (pro příznakové rozpoznávání): Spojité vs. diskrétní Nezávislé (vstupy) vs. závislé (výstupy) Znak Škála Možné operace Příklady Kval. Nominální Ordinální Kvant. Intervalová Poměrová P. Pošík c 2010 Aplikace umělé inteligence 15 / 36
Rozpoznávání AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Rozpoznávání: Statistické, příznakové usuzování podle spojitých či diskrétních znaků měřených na objektu Strukturální usuzování podle vztahů mezi jednotlivými prvky objektu (často: struktura objektu odvozené příznaky příznakové rozpoznávání) Druhy veličin (pro příznakové rozpoznávání): Spojité vs. diskrétní Nezávislé (vstupy) vs. závislé (výstupy) Znak Škála Možné operace Příklady Kval. Nominální Popsat příslušnost Ordinální Kvant. Intervalová Poměrová P. Pošík c 2010 Aplikace umělé inteligence 15 / 36
Rozpoznávání AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Rozpoznávání: Statistické, příznakové usuzování podle spojitých či diskrétních znaků měřených na objektu Strukturální usuzování podle vztahů mezi jednotlivými prvky objektu (často: struktura objektu odvozené příznaky příznakové rozpoznávání) Druhy veličin (pro příznakové rozpoznávání): Spojité vs. diskrétní Nezávislé (vstupy) vs. závislé (výstupy) Znak Škála Možné operace Příklady Kval. Nominální Popsat příslušnost Barva očí, národnost, pohlaví, místo narození Ordinální Kvant. Intervalová Poměrová P. Pošík c 2010 Aplikace umělé inteligence 15 / 36
Rozpoznávání AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Rozpoznávání: Statistické, příznakové usuzování podle spojitých či diskrétních znaků měřených na objektu Strukturální usuzování podle vztahů mezi jednotlivými prvky objektu (často: struktura objektu odvozené příznaky příznakové rozpoznávání) Druhy veličin (pro příznakové rozpoznávání): Spojité vs. diskrétní Nezávislé (vstupy) vs. závislé (výstupy) Znak Škála Možné operace Příklady Kval. Nominální Popsat příslušnost Barva očí, národnost, pohlaví, místo narození Ordinální Seřadit Kvant. Intervalová Poměrová P. Pošík c 2010 Aplikace umělé inteligence 15 / 36
Rozpoznávání AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Rozpoznávání: Statistické, příznakové usuzování podle spojitých či diskrétních znaků měřených na objektu Strukturální usuzování podle vztahů mezi jednotlivými prvky objektu (často: struktura objektu odvozené příznaky příznakové rozpoznávání) Druhy veličin (pro příznakové rozpoznávání): Spojité vs. diskrétní Nezávislé (vstupy) vs. závislé (výstupy) Znak Škála Možné operace Příklady Kval. Nominální Popsat příslušnost Barva očí, národnost, pohlaví, místo narození Ordinální Seřadit Popis velikosti (S,M,L,XL,XXL), vzdělání (ZŠ, SŠ, VŠ) Kvant. Intervalová Poměrová P. Pošík c 2010 Aplikace umělé inteligence 15 / 36
Rozpoznávání AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Rozpoznávání: Statistické, příznakové usuzování podle spojitých či diskrétních znaků měřených na objektu Strukturální usuzování podle vztahů mezi jednotlivými prvky objektu (často: struktura objektu odvozené příznaky příznakové rozpoznávání) Druhy veličin (pro příznakové rozpoznávání): Spojité vs. diskrétní Nezávislé (vstupy) vs. závislé (výstupy) Znak Škála Možné operace Příklady Kval. Nominální Popsat příslušnost Barva očí, národnost, pohlaví, místo narození Ordinální Seřadit Popis velikosti (S,M,L,XL,XXL), vzdělání (ZŠ, SŠ, VŠ) Kvant. Intervalová Porovnat vzdálenosti Poměrová P. Pošík c 2010 Aplikace umělé inteligence 15 / 36
Rozpoznávání AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Rozpoznávání: Statistické, příznakové usuzování podle spojitých či diskrétních znaků měřených na objektu Strukturální usuzování podle vztahů mezi jednotlivými prvky objektu (často: struktura objektu odvozené příznaky příznakové rozpoznávání) Druhy veličin (pro příznakové rozpoznávání): Spojité vs. diskrétní Nezávislé (vstupy) vs. závislé (výstupy) Znak Škála Možné operace Příklady Kval. Nominální Popsat příslušnost Barva očí, národnost, pohlaví, místo narození Ordinální Seřadit Popis velikosti (S,M,L,XL,XXL), vzdělání (ZŠ, SŠ, VŠ) Kvant. Intervalová Porovnat vzdálenosti Kalendářní datum, teplota, úhel, vzrůst zadlužení státu Poměrová P. Pošík c 2010 Aplikace umělé inteligence 15 / 36
Rozpoznávání AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Rozpoznávání: Statistické, příznakové usuzování podle spojitých či diskrétních znaků měřených na objektu Strukturální usuzování podle vztahů mezi jednotlivými prvky objektu (často: struktura objektu odvozené příznaky příznakové rozpoznávání) Druhy veličin (pro příznakové rozpoznávání): Spojité vs. diskrétní Nezávislé (vstupy) vs. závislé (výstupy) Znak Škála Možné operace Příklady Kval. Nominální Popsat příslušnost Barva očí, národnost, pohlaví, místo narození Ordinální Seřadit Popis velikosti (S,M,L,XL,XXL), vzdělání (ZŠ, SŠ, VŠ) Kvant. Intervalová Porovnat vzdálenosti Kalendářní datum, teplota, úhel, vzrůst zadlužení státu Poměrová Porovnat velikosti P. Pošík c 2010 Aplikace umělé inteligence 15 / 36
Rozpoznávání AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Rozpoznávání: Statistické, příznakové usuzování podle spojitých či diskrétních znaků měřených na objektu Strukturální usuzování podle vztahů mezi jednotlivými prvky objektu (často: struktura objektu odvozené příznaky příznakové rozpoznávání) Druhy veličin (pro příznakové rozpoznávání): Spojité vs. diskrétní Nezávislé (vstupy) vs. závislé (výstupy) Znak Škála Možné operace Příklady Kval. Nominální Popsat příslušnost Barva očí, národnost, pohlaví, místo narození Ordinální Seřadit Popis velikosti (S,M,L,XL,XXL), vzdělání (ZŠ, SŠ, VŠ) Kvant. Intervalová Porovnat vzdálenosti Kalendářní datum, teplota, úhel, vzrůst zadlužení státu Poměrová Porovnat velikosti Objem prodeje, průměr hřídele, hmotnost, ph P. Pošík c 2010 Aplikace umělé inteligence 15 / 36
Učení jako indukce AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Dvě fáze: 1. Učení z příkladů (trénovací data) učícímu algoritmu jsou předkládány příklady (a protipříklady) konceptu, který se má naučit rozpoznávat 2. Vybavování, rozpoznávání (testovací data) naučenému jsou předkládány neznámé příklady k ohodnocení (a) Model se učí. Trénovací data (dvojice x, y) jsou předkládány algoritmu učení, který tvoří strukturu a ladí jeho parametry. (b) Model si vybavuje. Testovací data (objekty x) procházejí naučeným modelem, který poskytuje odhady hodnot závislého znaku y. Předpoklad (běžný ve strojovém učení): trénovací a testovací data jsou nezávislá a pocházejí ze stejného pravděpodobnostního rozdělení (IID: Independent and Identically Distributed) P. Pošík c 2010 Aplikace umělé inteligence 16 / 36
Učení s učitelem a bez učitele AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Objekty jsou popsány vektorem příznaků x Učení bez učitele žádné další informace nejsou známy snaží se najít v datech přirozenou strukturu (a zakódovat ji v ) Učení s učitelem každý objekt má přiřazen i štítek y (informaci od učitele) snaží se naučit relaci x y (zakódovat ji v ) P. Pošík c 2010 Aplikace umělé inteligence 17 / 36
Druhy úloh AI, ML, PR Rozpoznávání Učení jako indukce Učení s učitelem a bez učitele Druhy úloh Klasifikace štítek je kategoriální proměnná Regrese štítek je spojitá proměnná Časové řady významným vstupem (někdy i jediným) je čas Shlukování štítek není dán Predikce je výrok o jisté události v budoucnosti (předpověd, časové řady). V ML se hojně používá i ve smyslu aplikace naučeného na nová data, nebo hodnoty poskytnuté modelem pro nová data. Další často řešenou úlohou je analýza nákupního koše, která dala vzniknout asociačním a sekvenčním pravidlům. P. Pošík c 2010 Aplikace umělé inteligence 18 / 36
Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí P. Pošík c 2010 Aplikace umělé inteligence 19 / 36
Existuje dokonalý model? Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí Dokonalý model, jehož struktura by umožňovala popsat jakýkoli koncept, jakoukoli relaci,..., neexistuje. Je možné hledat správný model v prostoru všech možných myslitelných modelů? Velikost prostoru modelů roste exponenciálně, často je nekonečný výpočetně neúnosné. Obrovské nároky na počet trénovacích dat. Obvyklý přístup: Zvolíme omezenou třídu modelů (omezený prostor hypotéz). V této třídě hledáme nejlepší model. Tento model je ale už z principu zaujatý (inductive bias). Co je nejlepší model? Dvě (obvykle protichůdná) kritéria: správnost (přesnost, minimální chyba) a jednoduchost. Jak je vyvážit??? P. Pošík c 2010 Aplikace umělé inteligence 20 / 36
Základní otázka Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí Co je dobrým ukazatelem kvality z hlediska DM? Při regresních úlohách se často aplikuje tzv. střední kvadratická chyba (mean squared error): MSE = 1 N N (y i f(x i )) 2, (1) i=1 kde f je pro nás modelem, f(x i ) je predikce pro i. objekt x (zde reálné číslo). Je tato veličina (měřená na datech, která máme k dispozici na trénovacích datech) dobrým ukazatelem kvality? P. Pošík c 2010 Aplikace umělé inteligence 21 / 36
Který model je lepší? Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí 3 2.5 2 1.5 1 0.5 f(x) = x f(x) = x 3 3x 2 +3x 0 0.5 1 0.5 0 0.5 1 1.5 2 2.5 P. Pošík c 2010 Aplikace umělé inteligence 22 / 36
Který model je lepší? Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí 3 2.5 2 1.5 1 0.5 f(x) = x f(x) = x 3 3x 2 +3x 0 0.5 1 0.5 0 0.5 1 1.5 2 2.5 Z hlediska MSE jsou oba modely ekvivalentní!!! Je tedy jedno, který použijeme? P. Pošík c 2010 Aplikace umělé inteligence 22 / 36
Který model je lepší? Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí 3 2.5 2 1.5 1 0.5 f(x) = x f(x) = x 3 3x 2 +3x 0 0.5 1 0.5 0 0.5 1 1.5 2 2.5 Z hlediska MSE jsou oba modely ekvivalentní!!! Je tedy jedno, který použijeme? Lineární model je jednodušší! P. Pošík c 2010 Aplikace umělé inteligence 22 / 36
Který model je lepší? Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí 2.5 2 1.5 1 0.5 f(x) = 0.09 + 0.99x f(x) = 0.00 + ( 0.31x) + (1.67x 2 ) + ( 0.51x 3 ) 0 0.5 0.5 0 0.5 1 1.5 2 2.5 P. Pošík c 2010 Aplikace umělé inteligence 23 / 36
Který model je lepší? Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí 2.5 2 1.5 1 0.5 f(x) = 0.09 + 0.99x f(x) = 0.00 + ( 0.31x) + (1.67x 2 ) + ( 0.51x 3 ) 0 0.5 0.5 0 0.5 1 1.5 2 2.5 Z hlediska MSE je kubický model lepší než lineární!!! P. Pošík c 2010 Aplikace umělé inteligence 23 / 36
Který model je lepší? Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí 2.5 2 1.5 1 0.5 f(x) = 0.09 + 0.99x f(x) = 0.00 + ( 0.31x) + (1.67x 2 ) + ( 0.51x 3 ) 0 0.5 0.5 0 0.5 1 1.5 2 2.5 Z hlediska MSE je kubický model lepší než lineární!!! Přesto může být lepší použít jednodušší lineární model. Máme ovšem málo dat, těžko soudit. P. Pošík c 2010 Aplikace umělé inteligence 23 / 36
Požadavky na model z hlediska ML Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí Specifika procesu učení s ohledem na využití ML, např. v DM: Model musí být užitečný při predikci Schopnost generalizace: model musí nalézt obecně platné závislosti v datech Nesmí být přeučený: nesmí se naučit na zdánlivé závislosti v datech nebo na šum Základní metodou pro omezení přeučení je ověření na nezávislých, tzv. testovacích datech P. Pošík c 2010 Aplikace umělé inteligence 24 / 36
Testovací data Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí X U(0, 10) Y (X 3) 2 + N(0, 6 2 ) 60 50 40 30 Trenovaci MSE: 131.87 Testovaci MSE: 426.96 Polynom 0 teho stupne 20 10 0 10 20 0 2 4 6 8 10 P. Pošík c 2010 Aplikace umělé inteligence 25 / 36
Testovací data Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí X U(0, 10) Y (X 3) 2 + N(0, 6 2 ) 60 50 40 30 Trenovaci MSE: 77.23 Testovaci MSE: 150.94 Polynom 1 teho stupne 20 10 0 10 20 0 2 4 6 8 10 P. Pošík c 2010 Aplikace umělé inteligence 26 / 36
Testovací data Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí X U(0, 10) Y (X 3) 2 + N(0, 6 2 ) 60 50 40 30 Trenovaci MSE: 28.71 Testovaci MSE: 57.45 Polynom 2 teho stupne 20 10 0 10 20 0 2 4 6 8 10 P. Pošík c 2010 Aplikace umělé inteligence 27 / 36
Testovací data Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí X U(0, 10) Y (X 3) 2 + N(0, 6 2 ) 60 50 40 30 Trenovaci MSE: 27.83 Testovaci MSE: 67.91 Polynom 3 teho stupne 20 10 0 10 20 0 2 4 6 8 10 P. Pošík c 2010 Aplikace umělé inteligence 28 / 36
Testovací data Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí X U(0, 10) Y (X 3) 2 + N(0, 6 2 ) 60 50 40 30 Trenovaci MSE: 27.74 Testovaci MSE: 64.53 Polynom 4 teho stupne 20 10 0 10 20 0 2 4 6 8 10 P. Pošík c 2010 Aplikace umělé inteligence 29 / 36
Testovací data Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí X U(0, 10) Y (X 3) 2 + N(0, 6 2 ) 60 50 40 30 Trenovaci MSE: 27.31 Testovaci MSE: 61.54 Polynom 5 teho stupne 20 10 0 10 20 0 2 4 6 8 10 P. Pošík c 2010 Aplikace umělé inteligence 30 / 36
Testovací data Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí X U(0, 10) Y (X 3) 2 + N(0, 6 2 ) 60 50 40 30 Trenovaci MSE: 26.99 Testovaci MSE: 72.28 Polynom 6 teho stupne 20 10 0 10 20 0 2 4 6 8 10 P. Pošík c 2010 Aplikace umělé inteligence 31 / 36
Chyba na trénovacích a testovacích datech Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí MSE 10 3 10 2 Trenovaci MSE Testovaci MSE 10 1 0 1 2 3 4 5 6 Slozitost Chyba na trénovacích datech se snižuje se vzrůstající flexibilitou Chyba na testovacích datech je pro určitou flexibilitu minimální P. Pošík c 2010 Aplikace umělé inteligence 32 / 36
Shrnutí Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí Dva extrémy flexibility 1. Málo flexibilní model (jednoduchý model) Model je silně vychýlen, zaujat (biased) Model je stabilní (vzhledem ke změně trénovací množiny) 2. Moc flexibilní model (složitý model) Velice přesný model (trénovacích dat) Model je velice citlivý (na změnu trénovací množiny) Model, který je nejblíž skutečnosti, se nachází někde mezi nimi Chybu, kterou model bude dělat na nových neznámých datech (pocházejících ze stejného zdroje), lze odhadnout chybou na testovacích datech Chybu na testovacích datech lze využít i pro volbu vhodné struktury P. Pošík c 2010 Aplikace umělé inteligence 33 / 36
Shrnutí Reference P. Pošík c 2010 Aplikace umělé inteligence 34 / 36
Shrnutí Shrnutí Reference DM (či KDD) se dá chápat jako mnohastupňový proces tvorby modelů strojového učení a jejich nasazování do praxe. Umělá inteligence se zabývá tvorbou umělých entit s inteligentním chováním. je podobor umělé inteligence, který studuje algoritmy umožňující strojům učit se. Rozpoznávání je podoblast strojového učení, kde se studují modely umožňující rozeznat určitou situaci nebo jev a zareagovat na ni. Mezi hlavní úlohy řešené v rámci strojového učení patří klasifikace, regrese, shlukování a odhad pravděpodobnostního rozdělení. Základní metodou pro zajištění kvality naučeného je ověření jeho funkce na nových, tzv. testovacích datech. P. Pošík c 2010 Aplikace umělé inteligence 35 / 36
Reference Shrnutí Reference [FSM92] [McC04] W. J. Frawley, Piatetsky G. Shapiro, and C. J. Matheus. Knowledge discovery in databases - an overview. AI Magazine, 13:57 70, 1992. John McCarthy. What is Artificial Intelligence. http://www-formal.stanford.edu/jmc/whatisai/whatisai.html, 2004. P. Pošík c 2010 Aplikace umělé inteligence 36 / 36