Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek



Podobné dokumenty
Popis morfologických značek poziční systém

SADA VY_32_INOVACE_CJ1

Morfologie odborných textů

http: //pravopisne.cz/2014/11/test-podstatna-jmena-konkretni-a-abstraktni-11/

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Téma 1: Proč se učíte česky?

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Český jazyk a literatura - jazyková výchova

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: jazyková výchova - ročník: PRIMA

Jméno autora: Mgr. Věra Kocmanová Datum vytvoření: Číslo DUMu: VY_12_INOVACE _08_CJL_NP2

VĚTNÁ SKLADBA Mgr. Soňa Bečičková

Úvod do gramatiky. Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Dataprojektor, jazykové příručky, pracovní listy

ČESKÝ JAZYK A LITERATURA 4.ROČNÍK

Slovní druhy. Ohebné i neohebné

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

Učebnice, cvičebnice, CD-Rom, počítačová učebna, dataprojektor, interaktivní tabule, mapy anglicky mluvících zemí

VY_12_INOVACE_32_ZAKLAD_VETY. Časová dotace: 45 min Datum ověření:

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Olympiáda v českém jazyce 45. ročník 2018/2019

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

Jazyk a jazyková komunikace 2. ročník a sexta

Všestranný jazykový rozbor (VJR)

Tematický okruh. Výstupy žáka. Module One. Průřezové. Mezipřed mětové vztahy. téma. Poslech s porozuměním (P+R) Jazykové prostředky a funkce

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Depfix: Jak dělat strojový překlad lépe než Google Translate

OBSAH SEZNAM TERMÍNŮ, ZKRTATEK A ZNAČEK POUŽÍVANÝCH V UČEBNICI POSTAVY PŘÍBĚHU 3 LEKCE 1 STUDIUM JAZYKŮ 8 LEKCE 2 LIDSKÁ KOMUNIKACE 42.

ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Český jazyk skladba. Mgr. Jana Rozumová

Český jazyk ve 4. ročníku

Český jazyk - Jazyková výchova

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

15. Věta jednoduchá Vypracovala: Martina Miškeříková, červenec 2013

Základy latiny II

Motivace pro jazykovou správnost. Prezentace pro předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2014

Učebnice, cvičebnice, CD-Rom, audio CD a DVD, počítačová učebna, dataprojektor, mapy anglicky mluvících zemí, slovník, interaktivní tabule

Dataprojektor, jazykové příručky, pracovní listy

Komunikace a jazyková správnost (pravopis)? Předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2015

Název materiálu SLOVNÍ DRUHY PODSTATNÁ JMÉNA. Metodika. Pořadové číslo III-2-ČJ-III- 1-9.r.

Jazyková výchova Párové souhlásky. Opakování párových souhlásek na konci slov. Párové souhlásky uvnitř slov. Abeceda ČaJs. Slovo

Anglický jazyk základní úroveň obtížnosti. obsahem lekcí bude nácvik jednotlivých dovedností a typů úloh:

ZŠ ÚnO, Bratří Čapků 1332

Automatická post-editace výstupů frázového strojového překladu (Depfix)

PRAVOPIS. Shoda podmětu s přísudkem. Několikanásobný podmět. Podmět v mužském životném rodě. Podmět v mužském neživotném rodě. Podmět v ženském rodě

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Iveta Jedličková Týdenní dotace hodin: 8 hodin Ročník: pátý

Český jazyk v 5. ročníku

VĚTNÁ SKLADBA Mgr. Soňa Bečičková

Číslo projektu: CZ.1.07/1.4.00/ Název materiálu: Slovesný rod, jazykový rozbor

ČESKÝ JAZYK 3. ROČNÍK

Digitální učební materiál

Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY. Karel Oliva Ústav pro jazyk český Akademie věd ČR

Školní vzdělávací program Základní školy a mateřské školy Sdružení

VĚTNÉ ČLENY. Mgr. Jiří Ondra Procvičení základních pojmů a kategorií z oblasti české skladby. Zdokonalování jazykových vědomostí a dovedností

GRAMMATICON - POMOCNÍK PŘI PSANÍ TEXTŮ, KTERÝ VÁS UPOZORNÍ:

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

Stonožka jak se z výsledků dozvědět co nejvíce

Olympiáda v českém jazyce 45. ročník, 2018/2019

Automatická post-editace výstupů frázového strojového překladu (Depfix)

VY_32_INOVACE_CH8SA_01_01_01. VY_32_INOVACE_CJ678JO_09_03_17 materiál č. šablony/č. sady/č. materiálu: Hana Johánková Vzdělávací oblast předmět:

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Tabulace učebního plánu

L A TEX Korektura textu

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: literární výchova - ročník: KVARTA

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Výukový materiál zpracován v rámci projektu EU peníze školám

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Mgr. Jaroslava Kholová. Období tvorby Listopad- prosinec Střední vzdělání s MZ, nástavbové studium, 2. ročník. oblast

Jak dělat strojový překlad lépe než Google Translate

Němčina druhý jazyk

Vyučovací předmět Ruský jazyk druhý cizí jazyk je součástí vzdělávací oblasti Jazyk a jazyková komunikace, vzdělávací obor Další cizí jazyk dle RVP.

Nové orgány na postupu

TEMATICKÝ,časový PLÁN vyučovací předmět : český jazyk ročník : 5. x Školní rok_2014/ 2015 vyučující: Lenka Šťovíčková. Zařazená průřezová témata OSV

Olympiáda v českém jazyce 44. ročník, 2017/2018

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Tabulace učebního plánu

SLOVNÍ DRUHY. Vytvořeno dne: druhů, vymezuje tři základní kritéria členění. Závěr prezentace slouží k procvičení osvojených poznatků.

učebnice, cvičebnice, CD-Rom, počítačová učebna, dataprojektor, interaktivní tabule, mapy anglicky mluvících zemí, slovník

Vedlejší věta přísudková

Projekt IMPLEMENTACE ŠVP

Číslo materiálu: VY 32 INOVACE 27/15

Anglický jazyk vyšší úroveň. obsahem lekcí bude nácvik jednotlivých dovedností a typů úloh:

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Jazyk a jazyková komunikace Seminář z českého jazyka 2. 7.

Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup

Předmět: Český jazyk a literatura Ročník : 6. Jazyková výchova

prověřovací práce kontrolní diktáty testy pravopisná cvičení jazykové rozbory ústní zkoušení Český jazyk Literární výchova

Český jazyk, 3. ročník 2014/2015

základní větné členy podmět Po (vyjádřen, nevyjádřen, všeobecný) a přísudek Přs (slovesný, souslovný, jmenný se sponou, jmenný)

Zvyšování kvality výuky technických oborů

7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků

Příloha č. 13 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Učebnice, cvičebnice, CD-Rom, počítačová učebna, dataprojektor, interaktivní tabule, mapy anglicky mluvících zemí

ČESKÝ JAZYK 5. TŘÍDA

Číslo projektu: CZ.1.07/1.4.00/

SKLADBA SOUVĚTÍ. Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje

Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, Praha 1. Olympiáda v českém jazyce, 42. ročník, 2015/2016 okresní kolo

Transkript:

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek I. Zpracování textu II. III. IV. Jazyk G Desambiguace Kontrola gramatiky V. Kontrola stylu VI. Valence sloves VII. Vývoj a odezva

I. Zpracování textu 1. Rozdělení textu na věty 2. Rozdělení věty na slova 3. Lemmatizace 4. Odstranění překlepů 5. Desambiguace 6. Kontrola gramatiky 7. Kontrola stylu 8. Nabídka oprav

Způsob analýzy textu Vše pomocí pravidel Ruční vytváření bez účasti umělé inteligence Žádný korpus ani pravděpodobnost Pravidlo navazuje slovo nebo frázi Levý a pravý kontext Parciální analýza jazyka

II. Jazyk G Práce s přirozeným jazykem Pravidla psaná deklarativním způsobem Vyhodnocování Procházení věty slovo po slově Aplikace pravidel podle jejich druhu a priorit Další kód podobný jazyku C Vestavěné funkce Přístup k databázím (morfologie, slovníky) Řetězce, nabídky Konstanty, vlastní makra a funkce

Složitější pravidla

Morfologická databáze Základní funkce slovní tvar značka, lemma bude bud. čas, 3. os., sg., ozn. zp., být lemma, značka slovní tvar dívka, 7. pád pl. dívkami Řešení Systém vzorů a k nim přiřazené kmeny 650 vzorů (320 substantiva, 70 adjektiva, 150 slovesa) 160 000 kmenů

III. Desambiguace Nejednoznačná lemmata jez (jez do polosyta, Berounský jez) stát, prodej, mezi, hlavně se, má, je září, tři, pět, květen, roste, tyto Nejednoznačné tvary celek (1. pád, 4. pád) byla (sg. ženský rod, pl. střední rod)

Desambiguace spojovacích výrazů a, i, čárka, pomlčka Celou sobotu a neděli budeme doma. Budeme doma celou sobotu a neděli strávíme na chatě. Před soudem stanuli tři obžalovaní. Soud zvážil fakta a shledal vinným prvního a druhého a třetího omilostnil. (Co se stalo s druhým obžalovaným?)

Příklady pravidel Ona se tomu jen smála. Smála je reflexivní sloveso se je reflexivní zájmeno Lidé často spoléhají na stát. na je předložka a za ní nesmí následovat infinitiv slovesa stát je substantivum Po těch letech vypadal velmi sešle. Vypadal je jisté sloveso sešle je příslovce

Statistika I Obecná Asi 4% tvarů v češtině má více lemmat 30% slov 2 lemmat, 67% slov 2 značek 1,35 var. / slovo, 3,50 zn. / slovo Kvalita desambiguace 99,96% správných značek (1 chyba / 2500 slov) Úspěšnost desambiguace 1,10 var. / slovo (68%), 1,80 zn. / slovo (67%) 10% slov 2 lemmat, 33% slov 2 značek

Statistika II 100% úspěšnost je vyloučená Ta je teda má. (být, on vs. mít, můj) Prostřel ho. (prostřít vs. prostřelit) Pojedeme na saních! (sáně vs. saň) Počet pravidel 135 pro desambiguaci variant 50 pro desambiguaci značek 15 pro desambiguaci oddělovačů

IV. Kontrola gramatiky 45 jevů, 14 kategorií pro ní, o mě bysme, by jsi, mohu bych si půjčit byl zvědaví mimo dopravní obsluhy Věděl dobře že se to nesmí. Místnost, kde probíhalo jednání se nacházela až na druhém konci budovy.

Netriviální překlep Příklad: Včera jsem viděli nový český film. Pravidlo: 1. Najdi dvě po sobě následující slovesa. 2. Ověř, zda je jedno z nich tvar slovesa být. 3. Zjisti, zda se shodují v čísle. 4. Pokud se v čísle neshodují, zahlas chybu a nabídni možné opravy.

Chybějící čárka Příklad: O tom, že přijde Hanka nevěděla. Pravidlo: 1. Najdi dvě slovesa v určitém tvaru 2. Zjisti, zda je mezi nimi čárka 3. Pokud mezi nimi čárka není, zahlas chybu Problém: Zjistit, kde má čárka být, a nabídnout opravu

Jmenná skupina hranice Chybějící podstatné jméno: Anička snědla dva bonbóny, velký a malý. Malý Aničce chutnal, ale velký ne. Neshodný přívlastek: Trenér týmu svolal tiskovou konferenci. Trenér týmu poděkoval.

V. Kontrola stylu Závislé na typu textu Velká písmena při oslovení v dopisech (ti, váš) Použití 1. osoby (mně, pracuji), tykání (budeš) Vykřičník na konci věty Věty bez sloves (Hrr na ně.) Kontrolující čitelnost textu Příliš dlouhé věty Příliš mnoho opakujících se větných členů (stávající velký nesnadný problematický úkol) Opakování slov ve větě

Pravidla 15 jevů, 12 kategorií Nenáročná Závislá na desambiguaci Oslovení ti (ty, ten) Sloveso myslím (myslet, mysl) Atypická Kontrola délky věty Opakování slov

VI. Valence sloves Valence popisuje vazbu sloves na další větné členy Valenční rámce sdělit [co] [komu] přijít [na co] [jak] sednout si [kam]

Slovník slovesných valencí Významy domluvit [komu] Otec domlouvá synovi. domluvit [komu] [co] Domluvila mu schůzku na zítřek. domluvit Domluvil a odešel. Celkem přes 12000 sloves a 26000 významů. Povinné a nepovinné valence rozmluvit [komu] [co] Rozmluvil mu. kamarádit [s kým] Petr kamarádil Pavlem. abdikovat [z čeho] Ministr abdikoval na svou funkci.

VII. Vývoj nástroje 1. Počáteční nadšení Obecnost jazyka G První desambiguační úspěchy První sofistikované nabídky oprav Seznam asi 60 typů chyb 2. První verze korektoru (měsíce) Úspěšnost desambiguace 55% Pravidla pokrývající všechno možné 3. Začátek testování Úspěšnost desambiguace 75% Další obohacování pravidel

VII. Vývoj nástroje 4. První výsledky testování (týdny) 5% chyb v desambiguaci (chyba v jednom slově z 20) Spousta falešných poplachů 5. Další testování a redukce (roky) Úspěšnost desambiguace 68% při kvalitě 99,9% 30 typů chyb z 60 se zrušilo, dalších 30 se přidalo Pravidla hlásí chyby za maximálně přísných podmínek Oproti první verzi podtrhává zlomek případů

Uživatelský pohled Běžný uživatel Není si jist svými znalostmi pravopisu Spoléhá se na program Není vhodné hlásit falešné poplachy Zkušený uživatel (redaktor, spisovatel) Zná pravopis, ale pracuje ve spěchu Uvítá více chybových hlášení Dovede rozpoznat, zda je hláška opodstatněná Šťoural Zkouší chytáky z učebnic Má pocit zadostiučinění, když objeví nedostatky Nelze se zavděčit

Přísná kontrola Řešení pro zkušené uživatele Zahlásí raději víc chyb Spoléhá na správné rozhodnutí člověka Klade na větu náročnější podmínky Podmět ve větě je vždy vyjádřený Chlapci šly. Pokrytí více jmenných skupin Ten psaní přišel včera. Ten psaní nedonesl. Další drobné úpravy

Reakce uživatelů Kladné reakce Produkt je lepší než korektor překlepů Přímá integrace do MS Office Kontrola interpunkce Záporné reakce Většinou plynou z nepochopení Po městě se proháněl červenej taxík. Vítám vás na dnešní přednášce. Možná zlepšení Větší kontext Desambiguace významů Znalost světa