Ochutnávka strojového učení

Podobné dokumenty
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Vytěžování znalostí z dat

DATA MINING KLASIFIKACE DMINA LS 2009/2010

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Drsná matematika III 10. demonstrovaná cvičení Kostry grafů

Moderní systémy pro získávání znalostí z informací a dat

Chytal tlouště na višni

Trénování sítě pomocí učení s učitelem

Pokročilé neparametrické metody. Klára Kubošová

Vytěžování znalostí z dat

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Pravděpodobně skoro správné. PAC učení 1

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Dolování asociačních pravidel

CVIČNÝ TEST 27. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 6 III. Klíč 13 IV. Záznamový list 15

Algoritmy a datové struktury

Učící se klasifikátory obrazu v průmyslu

Základy vytěžování dat

Strojové učení Marta Vomlelová

Předzpracování dat. Lenka Vysloužilová

Přednáška 13 Redukce dimenzionality

Implementace LL(1) překladů

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Genetické programování

Co je to matematika?

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

NLP & strojové učení

Název: Výskyt posloupností v přírodě

Název materiálu: SKLADBA PODMĚT A PŘÍSUDEK základní skladební dvojice VY_32_INOVACE_S1_ČJ20_1

Lineární diskriminační funkce. Perceptronový algoritmus.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

1. Převeďte dané číslo do dvojkové, osmičkové a šestnáctkové soustavy: a) b)

Obecná informatika. Matematicko-fyzikální fakulta Univerzity Karlovy v Praze. Podzim 2012

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

CVIČNÝ TEST 25. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 6 III. Klíč 13 IV. Záznamový list 15

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Hlavolamy a teorie grafů

Vytěžování znalostí z dat

a4b33zui Základy umělé inteligence

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Dynamicky vázané metody. Pozdní vazba, virtuální metody

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů




Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Matematika 2 (Fakulta ekonomická) Cvičení z lineární algebry. TU v Liberci

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1

Kapacita k učení. Vaše kapacita k učení je běžná.

Úvod do teorie her

Kybernetika a umělá inteligence, cvičení 10/11

Automatické vyhledávání informace a znalosti v elektronických textových datech

6. Tahy / Kostry / Nejkratší cesty

Reálná čísla a výrazy. Početní operace s reálnými čísly. Složitější úlohy se závorkami. Slovní úlohy. Číselné výrazy. Výrazy a mnohočleny

Diskrétní matematika. DiM /01, zimní semestr 2017/2018

STRUKTURA RASTROVÝCH DAT

Kurzy v počítačových aplikacích - MOODLE

CVIČNÝ TEST 48. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 6 III. Klíč 15 IV. Záznamový list 17

Základy vytěžování dat

Select sort: krok 1: krok 2: krok 3: atd. celkem porovnání. výběr nejmenšího klíče z n prvků vyžaduje 1 porovnání

Pokročilé neparametrické metody. Klára Kubošová

Základy umělé inteligence

NPRG030 Programování I, 2018/19 1 / :03:07

Využití metod strojového učení v bioinformatice David Hoksza

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Datové typy a struktury

Vytěžování znalostí z dat

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Algoritmy výpočetní geometrie

ŠVP Školní očekávané výstupy. - vytváří konkrétní soubory (peníze, milimetrový papír, apod.) s daným počtem prvků do 100

Základní datové struktury III: Stromy, haldy

Asociační i jiná. Pravidla. (Ch )

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

A4B33ALG 2010/05 ALG 07. Selection sort (Select sort) Insertion sort (Insert sort) Bubble sort deprecated. Quicksort.

Matematika I A ukázkový test 1 pro 2014/2015

CVIČNÝ TEST 19. OBSAH I. Cvičný test 2. Mgr. Kateřina Nováková. II. Autorské řešení 5 III. Klíč 13 IV. Záznamový list 15

Rozdělování dat do trénovacích a testovacích množin

Testování modelů a jejich výsledků. tomu, co jsme se naučili?

VYUČOVACÍ PROCE S A JEHO FÁZE

2. Definice pravděpodobnosti

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Dobývání a vizualizace znalostí

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

Disambiguace významu slov

Standardní algoritmy vyhledávací.

Chatboti Virtuální pomocníci pro váš byznys. Watson Solution Market. 14. září 2017 ParkHotel Praha

B-IIa Studijní plány pro bakalářský SP Informatika se zaměřením na vzdělávání

09. seminář logika (úvod, výroková).notebook. November 30, Logika

PARAMETRY EFEKTIVITY UČENÍ SE ŽÁKA V PROSTŘEDÍ E-LEARNINGU SE ZAMĚŘENÍM NA ADAPTIVNÍ VÝUKOVÉ MATERIÁLY

ROVNICE A NEROVNICE. Lineární rovnice s absolutní hodnotou II. Mgr. Jakub Němec. VY_32_INOVACE_M1r0107

Úvod do teorie grafů

Znalosti budeme nejčastěji vyjadřovat v predikátové logice prvního řádu. Metody:

Profilová část maturitní zkoušky

IB111 Úvod do programování skrze Python

Matematika I A ukázkový test 1 pro 2011/2012. x + y + 3z = 1 (2a 1)x + (a + 1)y + z = 1 a

STROMY. v 7 v 8. v 5. v 2. v 3. Základní pojmy. Řešené příklady 1. příklad. Stromy

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Transkript:

Ochutnávka strojového učení Úvod do problematiky Barbora Hladká http://ufal.mff.cuni.cz/bvh Univerzita Karlova Matematiko-fyzikální fakulta Ústav formální a aplikované lingvistiky TechMeetUp Ostrava 21/3/18 Hladká 1/29

Ochutnávka strojového učení Cílem přednášky je ilustrovat základní myšlenku strojového učení pomocí několika reálných příkladů. Řešení jednoho z nich bude tématem praktické části, kdy projdeme hlavní kroky učení jednoho vybraného algoritmu v systému R. Obě dvě části jsou úvodní, proto nevyžadují žádné speciální znalosti a dovednosti posluchačů. Jak název napovídá, v první části přičichneme k nalité sklence a ve druhé části sklenkou zatočíme a její obsah poválíme lehce na jazyku. TechMeetUp Ostrava 21/3/18 Hladká 2/29

Páteční večer ilustrační příklad vybrat filmy na víkend ručně (téměř) nemožné automaticky Pro uživatele ohodnoťte, jak moc se mu bude film líbit. Použijte známky 1-5 (1-znechucení, 5-nadšení). Např: Určete pro Jarmilu známku filmu Někdo to rád horké Co nás zajímá které filmy už Jarmila viděla a jak se jí líbily kteří uživatelé mají podobný vkus které filmy jsou podobné TechMeetUp Ostrava 21/3/18 Hladká 3/29

Co je strojové učení Připravme příklady a naučme počítač učit se z příkladů. To je strojové učení! TechMeetUp Ostrava 21/3/18 Hladká 4/29

Strojové učení potřebuje příklady Příběh Hvězdné Někdo to hraček války rád horké (1995) (1977) (1959) Vilém 5 4 Hynek 2 5 Jarmila 2 4 TechMeetUp Ostrava 21/3/18 Hladká 5/29

Jak dostat Jarmilu do počítače? Popíšeme ji příznaky (atributy). Tím vznikne vektor příznaků: jméno věk pohlaví profese PSČ Jarmila 50 F zdravotní sestra 60657 Popíšeme i filmy. název animovaný hodnocení IMDb režisér Někdo to rád horké ne 8.3 Billy Wilder Příběh hraček ano 8.3 John Lasseter TechMeetUp Ostrava 21/3/18 Hladká 6/29

Příklady pro strojové učení příklad = vektor příznaků + výstupní hodnota (pokud je známa) <Jarmila,50,F,zdravotní sestra,60657,příběh hraček,ano,8.3,john Lasseter> + 4 TechMeetUp Ostrava 21/3/18 Hladká 7/29

Proces strojového učení TechMeetUp Ostrava 21/3/18 Hladká 8/29

Proces strojového učení TechMeetUp Ostrava 21/3/18 Hladká 9/29

Proces strojového učení Formulace úlohy 1 Ohodnoťte film pro uživatele. Výstupní hodnoty: 1,2,3,4,5 2 Odhadněte prodeje produktů v následujícím měsíci. Výstupní hodnoty: celá čísla 3 Rozpoznejte na obrázku psa, nebo kočku. Výstupní hodnoty: pes, kočka 4 Určete význam slova line v anglické větě. Př. I ve got Inspector Jackson on the line for you. Výstupní hodnoty: cord, phone, division, formation, product, text TechMeetUp Ostrava 21/3/18 Hladká 10/29

Proces strojového učení Získání příkladů, extrakce příznaků 1 Zorganizujte sběr hodnocení. 2 Zorganizujte sběr informací. Příznaky: informace o prodejci, o zboží, prodeje v minulosti,... 3 Shromážděte obrázky psů a koček a ručně je oštítkujte. Příznaky: informace opixelech 4 Vyberte věty s line a ručně přiřaďte významy. Příznaky: předcházející/následující slovo, typické slovo,... Rozdělte příklady na trénovací a testovací. TechMeetUp Ostrava 21/3/18 Hladká 11/29

Proces strojového učení Učení z trénovacích příkladů TechMeetUp Ostrava 21/3/18 Hladká 12/29

Proces strojového učení Hodnocení úspěšnosti testovací data jsou pro vývojáře během učení skryta test prediktoru na testovacích datech Jde o co nejlepší generalizaci! Zabránit přetrénování! TechMeetUp Ostrava 21/3/18 Hladká 13/29

Strojové učení a umělá inteligence TechMeetUp Ostrava 21/3/18 Hladká 14/29

Strojové učení a umělá inteligence Marvin Minsky, 1967 Umělá inteligence je věda o vytváření strojů nebo systémů, které budou při řešení určitého úkolu užívat takového postupu, který kdyby ho dělal člověk bychom považovali za projev jeho inteligence. TechMeetUp Ostrava 21/3/18 Hladká 15/29

Workspace Zkáza Titaniku v rozhodovacích stromech Úloha: Předpovězte, zda-li cestující na Titaniku jeho zkázu přežije Výstupní hodnoty: 0 (ne), 1 (ano) Zdroj: https://www.kaggle.com/c/titanic Algoritmus rozhodovacích stromů v kostce Cvičení v R, viz data a kód na http://ufal.mff.cuni.cz/bvh Co si myslí zákazníci Facebook Data for Sentiment Analysis http://hdl.handle.net/11858/00-097c-0000-0022-fe82-7 Vyzkoušejte přípravu dat https://tinyurl.com/ycdfrpbg TechMeetUp Ostrava 21/3/18 Hladká 16/29

Rozhodovací strom pro určování významu slova line TechMeetUp Ostrava 21/3/18 Hladká 17/29

Klasifikace pomocí stromu Příklad Určete význam slova line ve větě Draw a line between the points P and Q. (Narýsujte čáru mezi body P a Q.) Zaprvé, extrahujte hodnoty dvaceti příznaků A 1 A 2 A 3 A 4 A 5 A 6 A 7 A 8 A 9 A 10 A 11 0 0 0 0 0 0 0 0 1 0 0 A 12 A 13 A 14 A 15 A 16 A 17 A 18 A 19 A 20 a draw X between DT IN DT line dobj TechMeetUp Ostrava 21/3/18 Hladká 18/29

Klasifikace pomocí stromu Zadruhé, klasifikujte příklad. TechMeetUp Ostrava 21/3/18 Hladká 19/29

Popis stromové struktury Uzly Kořen Vnitřní uzly Listy s VÝSTUPNÍMI HODNOTAMI Rozhodnutí Binární otázky na hodnoty jednoho příznaku, tj. každý vnitřní uzel má dvě děti TechMeetUp Ostrava 21/3/18 Hladká 20/29

Konstrukce rozhodovacího stromu z trénovacích příkladů Krok 1 Vytvoř kořen Krok 2 Vyber rozhodnutí d a přidej dvě děti k existujícímu uzlu TechMeetUp Ostrava 21/3/18 Hladká 21/29

Konstrukce rozhodovacího stromu z trénovacích příkladů Jak vybrat rozhodnutí d? Spoj kořen s trénovací množinou t. Příklad 1. Uvažuj rozhodnutí if A 4 = TRUE. 2. Rozděl trénovací množinu t podle tohoto rozhodnutí na dvě podmnožiny "růžová" a "modrá" t VÝZNAM... A4... FORMATION TRUE FORMATION FALSE PHONE TRUE CORD TRUE DIVISION FALSE......... TechMeetUp Ostrava 21/3/18 Hladká 22/29

Konstrukce rozhodovacího stromu z trénovacích příkladů 3. Ke kořeni přidej dvě děti, "růžové" a "modré". Spoj každé z nich s odpovídající podmnožinou t L, t R, resp. t L VÝZNAM... A4... FORMATION TRUE CORD TRUE PHONE TRUE......... t R VÝZNAM... A4... FORMATION FALSE DIVISION FALSE......... TechMeetUp Ostrava 21/3/18 Hladká 23/29

Konstrukce rozhodovacího stromu z trénovacích příkladů Jak vybrat rozhodnutí d? Pracovat s více příznaky, formulovat více rozhodnutí. Které rozhodnutí je nejlepší? Zaměřit se na distribuci výstupních hodnot v příslušných množinách trénovacích příkladů. TechMeetUp Ostrava 21/3/18 Hladká 24/29

Konstrukce rozhodovacího stromu z trénovacích příkladů Příklad pro úlohu s významem slov Uvažujme 120 trénovacích příkladů. Rozhodnutím je rozdělíme na dvě podmnožiny (1) a (2) s následující distribucí výstupních hodnot: CORD DIVISION FORMATION PHONE PRODUCT TEXT (1) 0 0 0 120 0 0 "čístá" (2) 20 20 20 20 20 20 "nečistá" "čistá" podmnožina obsahuje většinu příkladů z jedné výstupní třídy TechMeetUp Ostrava 21/3/18 Hladká 25/29

Konstrukce rozhodovacího stromu z trénovacích příkladů Které rozhodnutí je nejlepší? Rozhodnutí, které dělí trénovací příklady do "čistých"podmnožin. TechMeetUp Ostrava 21/3/18 Hladká 26/29

Konstrukce rozhodovacího stromu z trénovacích příkladů Algoritmus rozhodovacích stromů základní formulace Krok 1 Vytvoř kořen Krok 2 Vyber rozhodnutí d a přidej dvě děti k existujícímu uzlu Krok 3 Rozděl trénovací příklady spojené s rodičovským uzlem t podle rozhodnutí d do podmnožin t L a t R. Krok 4 Rekurzivně opakuj kroky (2) a (3) pro oba dětské uzly a s nimi spojené trénovací příklady. Krok 5 Zastav, jakmile je uzel spojený s trénovacími příklady z jedné výstupní třídy. Vyvoř list s touto výstupní hodnotou. TechMeetUp Ostrava 21/3/18 Hladká 27/29

Křížová validace TechMeetUp Ostrava 21/3/18 Hladká 28/29

Přetrénování TechMeetUp Ostrava 21/3/18 Hladká 29/29