NLP & strojové učení

Podobné dokumenty
NLP zpracování přirozeného jazyka

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Řečové technologie pomáhají překonávat bariéry

Počítačové zpracování přirozeného jazyka. Daniel Zeman

Analýza staročeské morfologie v Excelu

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Český jazyk ve 2. ročníku

7 Další. úlohy analýzy řeči i a metody

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Zkušenosti z reálných analýz nestrukturovaných dat

Faktorované překladové modely. Základní informace

Data Science projekty v telekomunikační společnosti

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Aktuální změny v didaktickém testu z češtiny 2015

NÁVOD PRO VYHLEDÁVÁNÍ V DATABÁZI C.E.E.O.L. (CENTRAL AND EASTERN EUROPEAN ONLINE LIBRARY) / /

NÁVRHY TEMATICKÝCH PLÁNŮ. 1. ročník Počet hodin

Automatické vyhledávání informace a znalosti v elektronických textových datech

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Obsah: Organizace předmětu IB030. Situace na FI MU

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Ontologie. Otakar Trunda

Ochutnávka strojového učení

Kam s ní? O interpunkční čárce v souvětí Jana Svobodová

Ročník II. Český jazyk. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.

Komunikace člověk počítač v přirozeném jazyce

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Textmining a Redukce dimenzionality

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Vytěžování znalostí z dat

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Sem vložte zadání Vaší práce.

Vzdělávací obsah vyučovacího předmětu

Automatická detekce emocí v textu

SEMINÁŘ Z ČESKÉHO JAZYKA. Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Petr Nevrlý

Předmět: Český jazyk a literatura

7 UČEBNÍ OSNOVY 7.1 JAZYK A JAZYKOVÁ KOMUNIKACE Český jazyk (ČJ) Charakteristika předmětu 1. stupně

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Český jazyk skladba. Mgr. Jana Rozumová

Co nového ve zpracování MWE Automatická identifikace

Dolování z textu. Martin Vítek

Dobývání znalostí z textů text mining

SÉMANTICKY SIGNIFIKANTNÍ KOLOKACE

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Petr Nevrlý

Český jazyk a literatura

učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby Umí komunikovat se spolužáky a s dospělými.

Statistická teorie učení

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Výpisky a výtah. Vypravování ústní. Výpisky a výtah. Vypravování ústní. 1. slohová práce - výtah. Charakteristika.

Speciální struktury číslicových systémů ASN P12

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

SHLUKOVÁNÍ SLOV PODLE VÝZNAMU

5.1 Český jazyk a literatura Vyšší stupeň osmiletého gymnázia a gymnázium čtyřleté

Český jazyk a literatura

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Český jazyk a literatura

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Výstupy z RVP Učivo Ročník

Tematický plán pro školní rok 2016/2017 Předmět: Český jazyk a literatura Vyučující: Mgr. Jana Paličková Týdenní dotace hodin: 9 hodin Ročník: druhý

Autor: JUDr. Lukáš Bohuslav Redakce: JUDr. Petr Flášar

Očekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)

Přehled učiva. M Matematika. Čj Český jazyk. Prv Prvouka. 1. ročník. Anglický jazyk. l číselná řada 1-5, opakování tvarů v řadě Velká Dobrá

Stonožka jak se z výsledků dozvědět co nejvíce

Badatelsky orientované vyučování matematiky

Obsah: Organizace předmětu IB030. Situace na FI MU A B C D E F 0 49 K Z

ÚVOD DO STUDIA JAZYKA - JAZYK A ŘEČ

ŠABLONY INOVACE OBSAH UČIVA

K Z A B C D E F Obsah: Organizace předmětu IB030. Situace na FI MU

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Automatická detekce emocí v textu

Aplikace metod předzpracování při dolování znalostí z textových dat

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Využití metod strojového učení v bioinformatice David Hoksza

ve strojovém překladu

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Ročník V. Český jazyk. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.

IA161 Pokročilé techniky zpracování přirozeného jazyka

ZÁŘÍ. Náprava - používání pomůcek: Přípravné období pro výuku čtení a psaní, odstraňování symptomů provázejících dyslexii

Alternativní způsoby učení dětí s mentálním postižením

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

Nedostatky bezkontextové gramatiky

ZÁZNAMOVÝ ARCH ověření nově vytvořených/inovovaných materiálů

Karel Pala, Vít Suchomel

Petr Nevrlý

Český jazyk a literatura

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)

Transkript:

NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13

Co je to NLP? NLP = Natural Language Processing (zpracování přirozeného jazyka) Computational linguistic (komputační lingvistika) Aplikační oblasti Vyhledávání textů (Google). Strojový překlad (IBM word model) Podpora marketingu (analýza sentimentu). Podpora PR (třídění e-mailů). Podpora rozpoznávání (řeči, skenovaných textů). Oprava pravopisu. Odpovídání otázek (SIRI, IBM Watson). další... Miloslav Konopík () NLP & strojové učení 2. dubna 2013 2 / 13

Z čeho s NLP skládá? Tokenizace (rozdělení textu na slova, věty, dokumenty). Normalizace (velikosti písmen, čísel, dat,...). Jazykové modelování (určování posloupnosti tokenů). Morfologie slov (stemming, lematizace, morfologické značkování). Parsování vět (syntaktické / sémantické). Rozpoznávání pojmenovaných entit. Hledání kolokací. Klasifikace dokumentů (do jedné/více tříd). Analýza sentimentu (aspektová, sociálních médií). Miloslav Konopík () NLP & strojové učení 2. dubna 2013 3 / 13

Z čeho s NLP skládá? Sumarizace textů. Oprava pravopisu. Odpovídání otázek. Strojový překlad. Vyhledávání a získávání informací. (Stahování webů (získání HTML, parsování čištění)). Miloslav Konopík () NLP & strojové učení 2. dubna 2013 4 / 13

Tokenizace Rozdělení textu na: slova, věty, resp. souvětí, dokumenty, odstavce, věty souvětí, slabiky, další jednotky. První systém pro strojový překlad byl představen 7. ledna 1954 v ústředí firmy IBM. Miloslav Konopík () NLP & strojové učení 2. dubna 2013 5 / 13

Tokenizace Složitější případy. 在北京, 如果迷失方向, 完全不必着急 北京是个大城市, 北京人对外国人都很热情 zkratky (s.r.o.), data, hodiny (12. března 2013, 12:30, 3.3),... Miloslav Konopík () NLP & strojové učení 2. dubna 2013 6 / 13

Normalizace Převod tokenů (slov) na standardní tvar. Snížení počtu jednotek. Příklady Lower casing: první systém pro strojový překlad byl představen 7. ledna 1954 v ústředí firmy imb. True casing: první systém pro strojový překlad byl představen 7. ledna 1954 v ústředí firmy IBM. DATE(DAY=12, MONTH=3, YEAR=2013) Miloslav Konopík () NLP & strojové učení 2. dubna 2013 7 / 13

Jazykové modelování Spadá do NLP, dle 5. přednášky. Rozšíření Metody určování tříd využití sémantiky slov. Topic modely. Miloslav Konopík () NLP & strojové učení 2. dubna 2013 8 / 13

Morfologie slov Lexém: Jeden záznam ve slovníku. Lemma: Normovaný tvar lexému. Stem: Kořen slova. Většinou však bez lingvistického významu. Lemmatizace: Hledání lemmat. OOV slova. Stemming: Hledání kořenů. Morfologická analýza: Nalezení (všech) morfologických příznaků ke slovům. Morfologické značkování: Nalezení kontextově správně posloupnosti morfologických příznaků slov. Miloslav Konopík () NLP & strojové učení 2. dubna 2013 9 / 13

Morfologie slov - ukázka Věta: Září ve vědě. Zdroj: PDT 2.0. <m id="m-vesm9211-031-p1s1w1"> <src.rf>manual</src.rf> <w.rf>w#w-vesm9211-031-p1s1w1</w.rf> <form>září</form> <lemma>září</lemma> <tag>nnns1-----a----</tag> </m> Stem: zář. Miloslav Konopík () NLP & strojové učení 2. dubna 2013 10 / 13

Parsování vět Zdroj: Manuál PDT 2.0. Miloslav Konopík () NLP & strojové učení 2. dubna 2013 11 / 13

Rozpoznávání pojmenovaných entit NER - Určení významu slov a slovních spojení, která mají určitý předem definovaný význam. Například: Jména osobností. Názvy měst. Názvy států. Názvy společností. Data. Čísla.... Datum Společnost První systém pro strojový překlad byl představen 7. ledna 1954 v ústředí firmy IBM. Miloslav Konopík () NLP & strojové učení 2. dubna 2013 12 / 13

Hledání kolokací Kolokace. Idiomy. Například: Strojové účení Miloslav Konopík () NLP & strojové učení 2. dubna 2013 13 / 13

Klasifikace dokumentů Do: jedné, více tříd. Například: určení tématu, detekce spamu, třídění e-mailů. Miloslav Konopík () NLP & strojové učení 2. dubna 2013 14 / 13

Přístupy Pravidlový přístup. Strojové učení. Kombinace Strojové učení Trénovací data - učení vztahů, závislostí, pravidel. Zobecňování. S učitelem (supervised). Bez učitele (unsupervised). Částečné učení s učitelem (semi-supervised). Miloslav Konopík () NLP & strojové učení 2. dubna 2013 15 / 13