Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek I. Zpracování textu II. III. IV. Jazyk G Desambiguace Kontrola gramatiky V. Kontrola stylu VI. Valence sloves VII. Vývoj a odezva
I. Zpracování textu 1. Rozdělení textu na věty 2. Rozdělení věty na slova 3. Lemmatizace 4. Odstranění překlepů 5. Desambiguace 6. Kontrola gramatiky 7. Kontrola stylu 8. Nabídka oprav
Způsob analýzy textu Vše pomocí pravidel Ruční vytváření bez účasti umělé inteligence Žádný korpus ani pravděpodobnost Pravidlo navazuje slovo nebo frázi Levý a pravý kontext Parciální analýza jazyka
II. Jazyk G Práce s přirozeným jazykem Pravidla psaná deklarativním způsobem Vyhodnocování Procházení věty slovo po slově Aplikace pravidel podle jejich druhu a priorit Další kód podobný jazyku C Vestavěné funkce Přístup k databázím (morfologie, slovníky) Řetězce, nabídky Konstanty, vlastní makra a funkce
Složitější pravidla
Morfologická databáze Základní funkce slovní tvar značka, lemma bude bud. čas, 3. os., sg., ozn. zp., být lemma, značka slovní tvar dívka, 7. pád pl. dívkami Řešení Systém vzorů a k nim přiřazené kmeny 650 vzorů (320 substantiva, 70 adjektiva, 150 slovesa) 160 000 kmenů
III. Desambiguace Nejednoznačná lemmata jez (jez do polosyta, Berounský jez) stát, prodej, mezi, hlavně se, má, je září, tři, pět, květen, roste, tyto Nejednoznačné tvary celek (1. pád, 4. pád) byla (sg. ženský rod, pl. střední rod)
Desambiguace spojovacích výrazů a, i, čárka, pomlčka Celou sobotu a neděli budeme doma. Budeme doma celou sobotu a neděli strávíme na chatě. Před soudem stanuli tři obžalovaní. Soud zvážil fakta a shledal vinným prvního a druhého a třetího omilostnil. (Co se stalo s druhým obžalovaným?)
Příklady pravidel Ona se tomu jen smála. Smála je reflexivní sloveso se je reflexivní zájmeno Lidé často spoléhají na stát. na je předložka a za ní nesmí následovat infinitiv slovesa stát je substantivum Po těch letech vypadal velmi sešle. Vypadal je jisté sloveso sešle je příslovce
Statistika I Obecná Asi 4% tvarů v češtině má více lemmat 30% slov 2 lemmat, 67% slov 2 značek 1,35 var. / slovo, 3,50 zn. / slovo Kvalita desambiguace 99,96% správných značek (1 chyba / 2500 slov) Úspěšnost desambiguace 1,10 var. / slovo (68%), 1,80 zn. / slovo (67%) 10% slov 2 lemmat, 33% slov 2 značek
Statistika II 100% úspěšnost je vyloučená Ta je teda má. (být, on vs. mít, můj) Prostřel ho. (prostřít vs. prostřelit) Pojedeme na saních! (sáně vs. saň) Počet pravidel 135 pro desambiguaci variant 50 pro desambiguaci značek 15 pro desambiguaci oddělovačů
IV. Kontrola gramatiky 45 jevů, 14 kategorií pro ní, o mě bysme, by jsi, mohu bych si půjčit byl zvědaví mimo dopravní obsluhy Věděl dobře že se to nesmí. Místnost, kde probíhalo jednání se nacházela až na druhém konci budovy.
Netriviální překlep Příklad: Včera jsem viděli nový český film. Pravidlo: 1. Najdi dvě po sobě následující slovesa. 2. Ověř, zda je jedno z nich tvar slovesa být. 3. Zjisti, zda se shodují v čísle. 4. Pokud se v čísle neshodují, zahlas chybu a nabídni možné opravy.
Chybějící čárka Příklad: O tom, že přijde Hanka nevěděla. Pravidlo: 1. Najdi dvě slovesa v určitém tvaru 2. Zjisti, zda je mezi nimi čárka 3. Pokud mezi nimi čárka není, zahlas chybu Problém: Zjistit, kde má čárka být, a nabídnout opravu
Jmenná skupina hranice Chybějící podstatné jméno: Anička snědla dva bonbóny, velký a malý. Malý Aničce chutnal, ale velký ne. Neshodný přívlastek: Trenér týmu svolal tiskovou konferenci. Trenér týmu poděkoval.
V. Kontrola stylu Závislé na typu textu Velká písmena při oslovení v dopisech (ti, váš) Použití 1. osoby (mně, pracuji), tykání (budeš) Vykřičník na konci věty Věty bez sloves (Hrr na ně.) Kontrolující čitelnost textu Příliš dlouhé věty Příliš mnoho opakujících se větných členů (stávající velký nesnadný problematický úkol) Opakování slov ve větě
Pravidla 15 jevů, 12 kategorií Nenáročná Závislá na desambiguaci Oslovení ti (ty, ten) Sloveso myslím (myslet, mysl) Atypická Kontrola délky věty Opakování slov
VI. Valence sloves Valence popisuje vazbu sloves na další větné členy Valenční rámce sdělit [co] [komu] přijít [na co] [jak] sednout si [kam]
Slovník slovesných valencí Významy domluvit [komu] Otec domlouvá synovi. domluvit [komu] [co] Domluvila mu schůzku na zítřek. domluvit Domluvil a odešel. Celkem přes 12000 sloves a 26000 významů. Povinné a nepovinné valence rozmluvit [komu] [co] Rozmluvil mu. kamarádit [s kým] Petr kamarádil Pavlem. abdikovat [z čeho] Ministr abdikoval na svou funkci.
VII. Vývoj nástroje 1. Počáteční nadšení Obecnost jazyka G První desambiguační úspěchy První sofistikované nabídky oprav Seznam asi 60 typů chyb 2. První verze korektoru (měsíce) Úspěšnost desambiguace 55% Pravidla pokrývající všechno možné 3. Začátek testování Úspěšnost desambiguace 75% Další obohacování pravidel
VII. Vývoj nástroje 4. První výsledky testování (týdny) 5% chyb v desambiguaci (chyba v jednom slově z 20) Spousta falešných poplachů 5. Další testování a redukce (roky) Úspěšnost desambiguace 68% při kvalitě 99,9% 30 typů chyb z 60 se zrušilo, dalších 30 se přidalo Pravidla hlásí chyby za maximálně přísných podmínek Oproti první verzi podtrhává zlomek případů
Uživatelský pohled Běžný uživatel Není si jist svými znalostmi pravopisu Spoléhá se na program Není vhodné hlásit falešné poplachy Zkušený uživatel (redaktor, spisovatel) Zná pravopis, ale pracuje ve spěchu Uvítá více chybových hlášení Dovede rozpoznat, zda je hláška opodstatněná Šťoural Zkouší chytáky z učebnic Má pocit zadostiučinění, když objeví nedostatky Nelze se zavděčit
Přísná kontrola Řešení pro zkušené uživatele Zahlásí raději víc chyb Spoléhá na správné rozhodnutí člověka Klade na větu náročnější podmínky Podmět ve větě je vždy vyjádřený Chlapci šly. Pokrytí více jmenných skupin Ten psaní přišel včera. Ten psaní nedonesl. Další drobné úpravy
Reakce uživatelů Kladné reakce Produkt je lepší než korektor překlepů Přímá integrace do MS Office Kontrola interpunkce Záporné reakce Většinou plynou z nepochopení Po městě se proháněl červenej taxík. Vítám vás na dnešní přednášce. Možná zlepšení Větší kontext Desambiguace významů Znalost světa