K Z A B C D E F Obsah: Organizace předmětu IB030. Situace na FI MU

Podobné dokumenty
Obsah: Organizace předmětu IB030. Situace na FI MU A B C D E F 0 49 K Z

Obsah: Organizace předmětu IB030. Situace na FI MU

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

NLP & strojové učení

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Umělá inteligence a rozpoznávání

Historie a vývoj umělé inteligence

Motivace pro jazykovou správnost. Prezentace pro předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2014

Komunikace a jazyková správnost (pravopis)? Předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2015

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

RELATIONAL DATA ANALYSIS

Datová věda (Data Science) akademický navazující magisterský program

Sémantický web 10 let poté

Ontologie. Otakar Trunda

Institucionální akreditace - bakalářské studium informatiky


IUVENTAS Soukromé gymnázium a Střední odborná škola, s. r. o. Umělá inteligence. Jméno: Třída: Rok:

Základy umělé inteligence

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností

Chatboti Virtuální pomocníci pro váš byznys. Watson Solution Market. 14. září 2017 ParkHotel Praha

IB013 Logické programování I Hana Rudová. jaro 2011

Předměty. Algoritmizace a programování Seminář z programování. Verze pro akademický rok 2012/2013. Verze pro akademický rok 2012/2013

Informace pro výběr bakalářského oboru

Komunikace člověk počítač v přirozeném jazyce

4IZ440 Propojená data na webu Organizační a kontextový úvod

Úvod do umělé inteligence, jazyk Prolog

Úvod do umělé inteligence, jazyk Prolog

Úvod do umělé inteligence, jazyk Prolog

Úvod do umělé inteligence, jazyk Prolog

Informatika na Univerzitě Palackého

Úvod do umělé inteligence, jazyk Prolog

Zabýváme se konstrukcí racionálních agentů.

NLP zpracování přirozeného jazyka

Karel Pala, Vít Suchomel

NĚMECKÝ JAZYK A LITERATURA (jednooborové navazující magisterské studium) N 7310 Filologie

Filozofická fakulta Ostravské univerzity v Ostravě. Informace o přijímacích zkouškách podle studijních programů

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Nejúspěšnější chatboti a jak fungují?

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Studijní plány: 2014/2015. Univerzita Pardubice Fakulta elektrotechniky a informatiky

Mzdy na ÚFALu

Úvod do umělé inteligence, jazyk Prolog

KURZ TEORETICKÉ ASPEKTY UMĚLÉ INTELIGENCE (KA 16)


Vývojové trendy 1. Dnešní téma. Vývojové trendy 2. Vývojové trendy ve zpracování informací a znalostí

Speciální struktury číslicových systémů ASN P12

obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy

Další povinnosti / odb. praxe. Návrh témat prací. Návaznost na další stud. prog.

H. Dreyfuss: What computers can t do, 1972 What computers still can t do, J. Weizenbaum. Computer power and human reason, 1976

Jak dělat strojový překlad lépe než Google Translate

Present simple (přítomný čas prostý)

Aplikovaná informatika

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Znalostní technologie proč a jak?

5. Metody návrhu uživatelského rozhraní

Úvod do Informatiky. 0 Organizační pokyny k výuce IB000. Organizátor předmětu: Ondrej Moriš Cvičící (online přes IS MU):

NÁVRHY TEMATICKÝCH PLÁNŮ. 1. ročník Počet hodin

Vizualizace v Information Retrieval

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Moderní systémy pro získávání znalostí z informací a dat

Informace pro studenty doktorského studijního programu obecná jazykověda a teorie komunikace (OJTK)

VeriFIT Automatizovaná analýza a verifikace

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

Název projektu: Multimédia na Ukrajinské

Aplikace umělé inteligence Watson a Quill

Řečové technologie pomáhají překonávat bariéry

Vzdělávací oblast: Inovace a zkvalitnění Vzdělávací obor: žáci SOU všechny obory výuky cizích jazyků na středních školách

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Natural Language Toolkit

Microsoft Office 2003 Souhrnný technický dokument white paper

Automatizační a měřicí technika (B-AMT)

4IZ440 Propojená data na webu Organizační úvod

IBA CZ průmyslový partner FI MU

IB111 Úvod do programování skrze Python Přednáška 13

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Roviny analýzy jazyka. Fonetika

Programovací jazyky Přehled a vývoj

4IZ440 Propojená data na webu Organizační a kontextový úvod

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Bankovní institut vysoká škola, a.s. Praha Karlovy Vary Písek Teplice Břeclav

Automatická post-editace výstupů frázového strojového překladu (Depfix)


Programovací jazyky. imperativní (procedurální) neimperativní (neprocedurální) assembler (jazyk symbolických instrukcí)

Manažerský GIS. Martina Dohnalova 1. Smilkov 46, 2789, Heřmaničky, ČR

Trocha obrázků na začátek..

Vývoj informačních systémů. Přehled témat a úkolů

4IZ440 Propojená data na webu Organizační a kontextový úvod

CZ.1.07/1.5.00/

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Magisterské studium. OJ410 Magisterská diplomní práce všichni

Sémantický web a extrakce

IBA CZ průmyslový partner FI MU

Transkript:

Úvod do počítačové lingvistiky Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Hodnocení předmětu: závěrečná písemka (max 80 bodů) jeden řádný a dva opravné termíny průběžný úkol (max 20 bodů) navíc možnost 1 bodu za netriviální vylepšení slajdů hodnocení součet bodů za písemku i úkol (max 100 bodů) Obsah: rozdíly zk, k, z různé limity např.: A 80 100 B 73 79 C 65 72 D 58 64 E 50 57 F 0 49 K 45 100 Z 40 100 Úvod do počítačové lingvistiky 1/11 1 / 18 cvičení občas doporučené malé úkoly jeden hodnocený úkol (viz další slajdy) web předmětu http://nlp.fi.muni.cz/poc_lingv/ slajdy průběžně doplňovány na webu předmětu kontakt na přednášejícího Aleš Horák <hales@fi.muni.cz> (Subject: IB030... ) Úvod do počítačové lingvistiky 1/11 2 / 18 Samostatný hodnocený úkol programátorský dva typy programátorský lingvistický programátorský úkol upravit některou z dostupných jazykových knihoven pro češtinu: NLTK Natural Language Toolkit www.nltk.org FreeLing nlp.lsi.upc.edu/freeling/ Stanford University Natural Language Software nlp.stanford.edu/software/ Grammatical Framework www.grammaticalframework.org AIML www.aiml.foundation, ChatScript github.com/chatscript/chatscript, ParlAI github.com/facebookresearch/parlai Pepper nlp.fi.muni.cz/projects/pepper Facebook research fasttext github.com/facebookresearch/fasttext k odevzdání je zapotřebí: naprogramovaný odsouhlasený vybraný algoritmus na češtině (návrh tématu je součástí úkolu) dokumentace programu s ukázkami a návodem na instalaci/spuštění na serveru aurora.fi.muni.cz a vyhodnocením úspešnosti algoritmu na ne zcela triválních českých datech vše uložit v komprimovaném archivu do odevzdávárny do 21. května 2019 hodnocení bude od 0 do 20 bodů podle: složitosti vybraného algoritmus kvality zpracování algoritmu i dokumentace Úvod do počítačové lingvistiky 1/11 3 / 18 Úvod do počítačové lingvistiky 1/11 4 / 18

Literatura Samostatný hodnocený úkol lingvistický lingvistický úkol tvorba specializovaných jazykových dat pro evaluaci automatických nástrojů SQAD Simple Question Answering Database: čeština, 300 otázek a odpovědí podle textů z Wikipedie Jak se nazývá strom, jehož zrna jsou využívána k výrobě čokolády? Theobroma cacao Čokoláda se vyrábí z kvašených, pražených a mletých zrnek tropického kakaového stromu Theobroma cacao. http://cs.wikipedia.org/wiki/%c4%8cokol%c3%a1da k odevzdání je zapotřebí: oznámit včas výběr úkolu odeslat výsledek v obou částech dle instrukcí na webu hodnocení bude od 0 do 20 bodů podle: výsledků kombinovaného hodnocení navržených sad Literatura Jurafsky & Martin: Speech and Language Processing, 3rd edition, 2017. 499 s. The Oxford handbook of computational linguistics, ed. by Ruslan Mitkov. Oxford University Press, 2003, 784 s. Pala, Karel: Počítačové zpracování přirozeného jazyka, Brno FI MU, 2000. 190 s. Chomsky, Noam: Syntaktické struktury, Praha : Academia, 1966. 209 s. Materna, Pavel - Štěpán, Jan: Filozofická logika: nová cesta?, Olomouc (Univerzita Palackého), 2000. 127 s. slajdy na webu předmětu Náplň předmětu Úvod do počítačové lingvistiky 1/11 5 / 18 Náplň předmětu počítačové zpracování přirozeného jazyka (Natural Language Processing, NLP) roviny analýzy jazyka reprezentace morfologických a syntaktických struktur analýza a syntéza: morfologická, syntaktická, sémantická formy reprezentace znalostí o lexikálních jednotkách porozumění jazyku: reprezentace významu věty, inference a reprezentace znalostí Úvod do počítačové lingvistiky 1/11 7 / 18 Úvod do počítačové lingvistiky 1/11 6 / 18 Co je počítačová lingvistika Lingvistika: jazykověda (lingua = lat. jazyk) věda o jazycích, jejich třídění, stavbě, zvukové i psané podobě zkoumá strukturu jazyka slovotvorba, kombinace slov do vět, význam věty,... : od 60. let, Computational linguistics, často NLP (Natural Language Processing) spojení umělé inteligence (informatiky) a lingvistiky jako jedna z kognitivních věd zkoumá problémy analýzy či generování textů nebo mluveného slova, které vyžadují určitou (ne absolutní) míru porozumění přirozenému jazyku strojem. tvoří jazykové modely pojmy algoritmus, datová struktura, (formální) gramatika,... Úvod do počítačové lingvistiky 1/11 8 / 18

Turingův test z roku 1950, založen na tzv. imitační hře úkol program komunikující jako člověk zahrnuje: zpracování přirozeného jazyka (NLP) reprezentaci znalostí (KRepresentation) vyvozování znalostí (KReasoning) strojové učení (počítačové vidění) (robotiku) od 1991 Loebnerova cena (Loebner Prize) každý rok $4.000 za nejlidštější program, nabízí $100.000 a zlatá medaile za složení celého Turingova testu Úvod do počítačové lingvistiky 1/11 9 / 18 Chatbot dialogový robot Eliza, Parry,... Eliza Joseph Weizenbaum, MIT, 1964 66 program napodobující chování psychoterapeuta: Men are all alike. In what way? They re always bugging us about something. Can you think of a specific example? Well, my boyfriend made me come here. Your boyfriend made you come here? He says I m depressed much of the time. I am sorry to hear you are depressed. It s true. I m unhappy. Parry (Kenneth Colby, 70. léta), protějšek Elizy počítačová simulace pacienta postiženého paranoíı oba využívají spíš manipulace s řetězci než analýzu praktický význam tzv. expertní systémy, chatboti Úvod do počítačové lingvistiky 1/11 10 / 18 Turingův test jiné varianty mnoho proprietárních řešení pro návrh dialogových robotů praktické dialogy i pouze udržení zájmu přístupy: pravidla založená na vzorech Artificial Intelligence Markup Language, AIML robot ALICE, Mitsuku vítězí v Loebnerově ceně praktičtější použití, hodně závisí na podkladových pravidlech učení z předchozích dialogů potřebuje velké množství dialogů na učení lépe se přizpůsobí novým tématům (což je plus i minus, viz Microsoft Tay) robot Cleverbot, Xiaoice Winograd Schema Challenge: vyhlášený organizacemi Commonsense Reasoning a Nuance od 2015 strukturovanější test založený na rozpoznávání anafor podrobněji v přednášce o sémantice Turing tests in Creative Arts: DigiLit, DigiKidLit generování povídek PoetiX, LimeriX, LyriX generování sonetů, limeriků nebo básní Human-Computer Music Interaction AccompaniX, AlgoRhythm generování doprovodné hudby pro duet s člověkem Úvod do počítačové lingvistiky 1/11 11 / 18 Úvod do počítačové lingvistiky 1/11 12 / 18

IBM Watson DeepQA stroj označovaný jako Watson DeepQA vyvinutý za účelem porazit lidské šampiony ve hře Jeopardy (Riskuj) navazuje tím na stroj DeepBlue, který v roce 1997 porazil Kasparova v šachu po 5 letech vývoje se to Watsonovi podařilo 16. února 2011 princip: vytvoření databáze tvrzení z internetových dat analýza částí otázky, členění otázek podle typu vysoce paralelní hledání odpovědi s určením míry jistoty vyladěný algoritmus pro kombinaci stovek výsledků do výsledného rozhodovacího skóre viz Jak a proč Watson vyhrál Jeopardy! nejedná se o umělou inteligenci podle Turingova testu praktický význam inteligentní zpracování obrovského množství textů pro hledání odpovědi Úvod do počítačové lingvistiky 1/11 13 / 18 Cíle počítačové lingvistiky Cíle počítačové lingvistiky Významné úkoly v NLP: analýza přirozeného jazyka morfologická, syntaktická, sémantická generování přirozeného jazyka syntéza a rozpoznávání řeči strojový překlad (Machine translation) odpovídání na otázky (Question answering) získávání informací (Information retrieval) korektura textu (Spell-checking, Grammar checking) extrakce informací (Information extraction, Text Mining) výtah z textu (Text summarization) určení typu dokumentu (Text Classification/Clustering) určení stylu dokumentu/autora (Stylometry, Authorship Attribution) 1957 rusko-anglický překlad Chomsky (60. léta) generativní gramatika, vrozenost jazyka,... strojový překlad není ani dnes dokonalý potřebuje porozumět obsahu textu (Paretův zákon pravidlo 80/20) problémy víceznačnost, množství významů slov, různé způsoby užití slov k vyjádření významu, Commonsense a lidské uvažování Robert Wilensky: NLP je AI-complete 80. a 90. léta rozvoj formalismů pro syntaktickou analýzu PJ (LFG, LTAG, HPSG) současně zkoumání kvality statistických metod s rozsáhlými daty srovnatelné výsledky! 90. léta až 200x tvorba zdrojů vyšší úrovně (syntakticko-sémantické lexikony, wordnety,... ) stále není na obzoru splnění Turingova testu Úvod do počítačové lingvistiky 1/11 14 / 18 Přednášky se vztahem k NLP Přednášky se vztahem k NLP na FI MU obor Umělá inteligence a zpracování přirozeného jazyka vybrané Bc přednášky: IB030 Úvod do počítačové lingvistiky Horák IB047 Úvod do korpusové lingvistiky a Rychlý, Pala počítačové lexikografie IV029 Logická analýza přirozeného jazyka Materna, Duží PB016 Úvod do umělé inteligence Horák PB095 Úvod do počítačového zpracování řeči Bártek PV056 Strojové učení a dobývání znalostí Popeĺınský PV173 Seminář zpracování přirozeného jazyka Horák, Rychlý Úvod do počítačové lingvistiky 1/11 15 / 18 Úvod do počítačové lingvistiky 1/11 16 / 18

NLP Centre Centrum ZPJ NLP projekty a SW NLP Centre Centrum ZPJ na FI MU sdružení lidí (studentů Bc., Mgr. a PGS i zaměstnanců) z oblasti NLP webový server nlp.fi.muni.cz fyzicky 2 skleníky ve 2. patře budovy B, místnosti laboratoře zpracování přirozeného jazyka vlastní laboratorní servery a stanice s OS Linux řeší několik velkých grantových projektů, pořádá mezinárodní konference (TSD, GWC, Lexicom,... ) práce studentů: malé projekty, které se využijí v rámci velkých projektů bakalářské, diplomové i disertační práce někdy i zaměstnanecký poměr PV173 Seminář Laboratoře zpracování přirozeného jazyka pravidelná společná výměna informací NLP projekty a SW na FI MU Vybrané projekty: ajka, majka, desamb morfologický analyzátor, tagger synt, set, zuzana syntaktické (a logický) analyzátory X.plain hra na hádání slov, člověk počítač Watsonson hra na hledání parafrází DEB platforma pro XML databáze/slovníky (DEB)VisDic editor wordnetů VerbaLex slovník slovesných valencí bonito, manatee, Word Sketches korpusový manažer Visual Browser grafické znázornění (sémantických) sítí GDW (Grammar Development Workbench) GUI pro vývoj gramatiky demosthenes, text2phone (mbrola) syntetizátory řeči korpusy, slovníky, encyklopedie,... Úvod do počítačové lingvistiky 1/11 17 / 18 Úvod do počítačové lingvistiky 1/11 18 / 18