Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Podobné dokumenty
Obsah KAPITOLA 1 Několik slov o Wordu

7 Další. úlohy analýzy řeči i a metody

Složitost Filip Hlásek

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Diktovací sw NovaVoice zkušenosti. D.Zoubek KZM FN Motol

Internetové jazykové kurzy pro nevidomé žáky. Liberix, o.p.s.

IA161 Pokročilé techniky zpracování přirozeného jazyka

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

K 2 - Základy zpracování textu

Drsná matematika III 10. demonstrovaná cvičení Kostry grafů

editace textu normostrana

Úvod...1 Instalace...1 Popis funkcí...2 Hlavní obrazovka...2 Menu...3 Práce s aplikací - příklad...5

Bayesovské rozhodování - kritétium minimální střední ztráty

Základní orientace v MS Excel

Úloha D - Signál a šum v RFID

Osnova. Koncept a použití prezentací. Seznámení s pracovním prostředím MS Word Režimy zobrazení. Užitečná nastavení. Základní práce s dokumenty

Konvertor diakritiky 3. Instalace

Řešení. ŘEŠENÍ 36 Výsledková listina soutěže

Komplexní obálka pásmového signálu

8. MČR v řešení sudoku, Brno, Přehled úloh

11. ročník. Řešení: 3. a 4. sada

Použití dalších heuristik

HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT

Co chcete udělat? Přepis nahrávek. Přepis URL. Korekce přepisů. Vyhodnocení přepisů. Ukládání přepisů. Přidávání slov do slovníku

2. Korpusový portál a volně dostupné nástroje

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

qwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjkl zxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiop asdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqw

Dokumentace k semestrální práci z předmětu PT

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

Slovník PCT pro ios, verze 2.x

Řešení 5. série kategorie Student

3. Podmíněná pravděpodobnost a Bayesův vzorec

Kybernetika a umělá inteligence, cvičení 10/11

Práce v programu Word 2003

Jeden z mírně náročnějších příkladů, zaměřený na úpravu formátu buňky a především na detailnější práci s grafem (a jeho modifikacemi).

NLP & strojové učení

Databox CONTACT 6 základní operace programu

10. Předpovídání - aplikace regresní úlohy

Kontrola pravopisu. Zpracování textu

Textové editory. Ing. Luděk Richter

ZARÁŽKY A TABULÁTORY V MS OFFICE WORD

Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. PORTÁL KUDY KAM. Manuál pro editaci ŽS. Verze 1.

Anglická platina od nakladatelství Lingea Ing. Miroslav HEROLD, CSc.

oddělení Inteligentní Datové Analýzy (IDA)

nápis z fotky a proč bychom to měli chtít

for (i = 0, j = 5; i < 10; i++) { // tělo cyklu }

P o w e r P o i n t

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Test webového prohlížeče v Amazon Kindle Wi-Fi 3G

Excel Asistent Magazín 06/2003

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Programové vybavení počítačů operační systémy

Nyní si stručně zmíníme některé další funkce, kterým by bylo dobré ve Wordu rozumět.

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Registrační číslo projektu: Škola adresa:

Školní kolo soutěže Baltík 2009, kategorie C

Deset přednášek z teorie statistického a strukturního rozpoznávání

VZORCE A VÝPOČTY. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen Ročník: sedmý

Novinky v programu Stravné 4.56

Projekt OPVK - CZ.1.07/1.1.00/ Matematika pro všechny. Univerzita Palackého v Olomouci

MS Excel makra a VBA

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT

GIDGET WITNESS SYSTÉM V PRAXI

Manuál k ovládání aplikace INFOwin.

Překladač a jeho struktura

LEKCE10-RAD Otázky

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

Vzdálenost jednoznačnosti a absolutně

Novinky v programu Miraf SongBook 7

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

Cvičení ze statistiky - 5. Filip Děchtěrenko

Hodina 6 Stáhni a otevři dokument

Reliance 3 design OBSAH

P R OGR AM P R O NÁVRH VÝVAR U

STATISTICKÉ ODHADY Odhady populačních charakteristik

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

PSANÍ VZORCŮ A ROVNIC

Úterý 8. ledna. Cabri program na rýsování. Základní rozmístění sad nástrojů na panelu nástrojů

Teorie pravěpodobnosti 1

HAZARDY V LOGICKÝCH SYSTÉMECH

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

A2 Testování webu Trello.com

Matematická indukce, sumy a produkty, matematická logika

Tvar dat a nástroj přeskupování

Komprese DNA pomocí víceproudé komprese a predikce báz. Jan Jelínek, Radek Miček

Projekt: Přístupový terminál

ZSZÚ 9. hodina

cv3.tex. Vzorec pro úplnou pravděpodobnost

DTP v systému LATEX.

Hledání optimální cesty v dopravní síti

Architektura procesorů PC shrnutí pojmů

CVIČNÝ TEST 9 OBSAH. Mgr. Václav Zemek. I. Cvičný test 2 II. Autorské řešení 5 III. Klíč 17 IV. Záznamový list 19

Řízení projektů. Konstrukce síťového grafu pro řízení projektů Metoda CPM Metoda PERT

Transkript:

Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman http://ufal.mff.cuni.cz/daniel-zeman/

Úloha Rozpoznat slovo, které není ve slovníku Triviální Těžší je rozpoznat slovo, které ve slovníku je, ale v daném kontextu je nepravděpodobné Navrhnout opravy Nejpravděpodobnější nejdříve Seznam 100 oprav nemá smysl 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/ 2

Jak navrhnout opravu Hledáme ve slovníku podobná slova Které slovo je podobné? Editační vzdálenost: počet operací Vynechání písmene (deletion) Přidání písmene (insertion) Záměna písmene za jiné (replacement) Prohození dvou sousedních písmen Záměnu a prohození lze simulovat posloupností vynechání a přidání, ale psychologicky jde o samostatný jev 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/ 3

Pravděpodobnost opravy Pravděpodobnost, že slovo w má být opraveno na slovo c (correction) Bayesův vzorec: ( ) P c w = P ( wc) P( c) P( w) 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/ 4

Pravděpodobnost opravy ( ) P c w = arg max c = arg max P ( wc) P( c) P( w) ( ) ( P( w c) P( c) ) P c w c P(c w) pravděpodobnost, že c je opravou w P(w) pravděpodobnost opravovaného slova. Nemá vliv na nalezení nejlepšího c. P(c) pravděpodobnost náhradního slova. Je dána jazykovým modelem. P(w c) pravděpodobnost zkomolení správného slova c právě na tvar w. Je dána chybovým modelem. 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/ 5

Model kanálu s šumem Noisy channel (např. rádiové spojení, kvůli šumu jsme některá slova dostali chybná) Bayesův vzorec se na rozklad používá často Jazykový model: n-gram, viz značkování Chybový model je složitější 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/ 6

Jazykový model Pravděpodobnosti se naučíme z korpusu N-gramový model, ale na rozdíl od značkování Neodhadujeme pravděpodobnost značky Odhadujeme pravděpodobnost slova Na základě kontextu předcházejících slov Podobně slouží jazykový model jako pomocný model ve strojovém překladu, při rozpoznávání řeči a jinde. 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/ 7

Chybový model Potřebovali bychom korpus chyb a jejich oprav Např. pro angličtinu existuje Nemáme-li, pomůžeme si heuristikami 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/ 8

Heuristiky pro chybový model Pravděpodobnost chyby klesá s editační vzdáleností mezi správným a chybným slovem Editační vzdálenost je počet editačních operací Vynechání písmene Přidání písmene Záměna jednoho písmene za jiné Prohození dvou sousedních písmen Není triviální zjistit editační vzdálenost mezi dvěma slovy Není snadné najít nejkratší posloupnost editací (minimální cesta v grafu, graf je ale obrovský) 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/ 9

Heuristiky pro chybový model Některé chybné editace jsou pravděpodobnější než jiné Zdvojení písmene není totéž co vložení libovolného znaku (autor si nebyl jist pravopisem) Záměna a za e je asi pravděpodobnější než a za t (blízká výslovnost) Písmeno s diakritikou je podobné témuž písmenu bez diakritiky Písmena, která jsou vedle sebe na klávesnici, se zamění nebo přidají snadněji Vynechání nebo přidání mezery je stejně snadné jako úhoz na jinou klávesu, ale změní nám počet slov a zkomplikuje celou úlohu 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/ 10

Trénování Slovník Nemáme-li, lze naučit z korpusu Ale pozor, v korpusu bývají překlepy! Jazykový model Z korpusu, překlepy potlačí statistika Chybový model Speciální korpus nebo heuristiky Chtělo by to alespoň malý korpus chyb kvůli vyhodnocení 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/ 11