P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Podobné dokumenty
n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

Karel Pala, Vít Suchomel

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Workshop o paralelním korpusu InterCorp

Analýza staročeské morfologie v Excelu

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.

NLP & strojové učení

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Úvod do Operačních Systémů

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Základy XML struktura dokumentu (včetně testových otázek)

24. XML. Aby se dokument XML vůbec zobrazil musí být well-formed (správně strukturovaný). To znamená, že splňuje formální požadavky specifikace XML.

1. Přehled cizojazyčných a vícejazyčných korpusů

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Uspořádání klient-server. Standardy pro Web

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Značkovací jazyky a spol. HTML/XHTML XML JSON YAML Markdown, Texy!

Publikování map na webu - WMS

PHP - úvod. Kapitola seznamuje se základy jazyka PHP a jeho začleněním do HTML stránky.

K možnostem počítačového zpracování literárního textu

Tvorba jednoduchých WWW stránek. VŠB - Technická univerzita Ostrava Katedra informatiky

Jazyky pro popis dat

MASARYKOVA UNIVERZITA V BRNĚ FAKULTA INFORMATIKY. Korpusové manažery a jejich efektivní implementace. Pavel Rychlý

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Úloha 3 editor a skripty. připojte se vzdáleně na dray6.feld.cvut.cz heslo získáte na adrese

Frekvence Korelační analýza Jazykové zákony

HTML Hypertext Markup Language

more Program se zastaví vždy po vypsání jedné stránky textu. Ukončení Ctrl+C less Umožňuje pohybovat se v souboru dopředu i dozadu.

Systémy pro tvorbu digitálních knihoven

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS

APLIKACE XML PRO INTERNET

Cvičení 3. Plán. Procesy. procesy, jobs Find Wildcards Příklad uživatelé. ZOS 2005, L. Pešička. eryx4> ps x

1. Manuál ke Sketch Engine

Logický datový model VF XML DTM DMVS

1 Webový server, instalace PHP a MySQL 13

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Webové stránky. 2. Úvod do jazyka HTML. Datum vytvoření: str ánk y. Vytvořil: Petr Lerch.

Alena Malovaná, MAL305

Popis. Manuál Klávesové zkratky a příkazy - 1 -

XML terminologie a charakteristiky. Roman Malo

EXTRAKT z české technické normy

Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr

Kde hledat odborné články?

Aplikace vytěžování dat

PRODUKTY. Tovek Tools

Obsah. Začínáme programovat v Ruby on Rails 9. Úvod Vítejte v Ruby 15. O autorovi 9 Poděkování 9

Ontologie v e-commerce

FILTRY V GNU/LINUXU ZLÍNSKÝ KRAJ. Obchodní akademie, Vyšší odborná škola a Jazyková škola s právem státní jazykové zkoušky Uherské Hradiště

Virtuální počítač. Uživatelský program Překladač programovacího jazyka Operační systém Interpret makroinstrukcí Procesor. PGS K.

Inovace výuky prostřednictvím šablon pro SŠ

Vstupní data pro program Deformace ve formátu XML

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

BASH. Kouzla s příkazovou řádkou. Petr Koloros

ČESKÁ TECHNICKÁ NORMA

Ukládání a vyhledávání XML dat

Algoritmizace a programování

TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH

WWW jako dynamická knihovna

Obsah a značkování diachronního korpusu češtiny 1

Podporováno Technologickou agenturou České republiky, projekt TE

Možnosti využití XML v knihovnické praxi. Gabriela Krčmařová AKP 2001 Národní knihovna ČR Liberec,

Základy WWW publikování

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Distanční opora předmětu: Databázové systémy Tématický blok č. 4: XML, DTD, XML v SQL Autor: RNDr. Jan Lánský, Ph.D.

NSWI096 - INTERNET. Úvod do HTML

Další povinnosti / odb. praxe. Návrh témat prací. Návaznost na další stud. prog.

Úvod do databázových systémů B

Syntaxe XML XML teorie a praxe značkovacích jazyků (4IZ238)

KAPITOLA 1 Představení platformy Microsoft SQL Server 2008

Předmluva k druhému vydání 13. Úvod 17. ČÁST 2 Vytváření dokumentů XML 65

Kurz je rozdělen do čtyř bloků, které je možné absolvovat i samostatně. Podmínkou pro vstup do kurzu je znalost problematiky kurzů předešlých.

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů

SQL a XML jako alternativa ke klasickým unixovým nástrojům

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

Správa VF XML DTM DMVS Datový model a ontologický popis

PRG036 Technologie XML

Specifikace rozhraní. Oznamovací povinnost podle zákona č. 307/2013 Sb., ve znění pozdějších předpisů. Martin Falc, SW architekt.

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

rychlý vývoj webových aplikací nezávislých na platformě Jiří Kosek

14. Jazyk HTML (vývoj, principy, funkce, kostra stránky). Jazyk XML, XHTML. Algoritmizace - cyklus for, while a do while, implementace v jazyce

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Faktorované překladové modely. Základní informace

EXTRAKT z české technické normy

PRODUKTY. Tovek Tools

LinuxDays 2017 Ondřej Guth GNU grep LD 17 1 / 14

Vývoj Internetových Aplikací

1. Webový server, instalace PHP a MySQL 13

verze platná od

Základní příkazy UNIXu (Linuxu)

Úvod do databázových systémů

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Úvod do kvantitativní lingvistiky. Radek Čech

Jak psát Bc. resp. Mgr. závěrečnou práci. Zpracoval: Karel Bílek

Transkript:

n-gramy a textové korpusy n-gramy Pavel Rychlý, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Úkol: Je zadáno n slov textu, jaké slovo následuje s největší pravděpodobností? Obsah: Co to je korpus? např. diktování: { } láhve Nově označené se dostanou na trh... láhvové n-gramy pokrač. Úvod do počítačové lingvistiky 11/11 1 / 31 n-gramy Obecně máme text jako řetězec slov W = w 1 w 2 w 3...w n Na vstupu zatím w 1 w 2...w i 1, chceme určit nejpravděpodobnější w i Možnosti: použijeme pravděpodobnost P(w i ) vypočítáme unigramy zpřesnění n-gramy: bigramy P(w i w i 1 ) trigramy P(w i w i 2 w i 1 ) vyšší n je náročnější na výpočet i na data nejlepší pravděpodobnost podle celého předchozího vstupu P(w i w 1 w 2...w i 1 ) Úvod do počítačové lingvistiky 11/11 3 / 31 Úvod do počítačové lingvistiky 11/11 2 / 31 Markovovy modely pokrač. P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i 1 ) Markovovy modely P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) problém potřebujeme n-gramy pro velké n řešení Markovův předpoklad o lokálním kontextu (řádu n) Nejbližší kontext (n slov) nejvíce ovlivňuje pravděpodobnost slova w i Pro n = 1: P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 2 )... P(w i w i 1 ) P(w i w 1 w 2...w i 1 ) = P(w i w i 1 ) P(w i w i 1 ) = počet(w i 1w i ) počet(w i 1 )...bigramy! Markovův model pravděpodobnostní konečný automat pro všechna slova Úvod do počítačové lingvistiky 11/11 4 / 31

Markovovy modely Markovovy modely využití Využití jazykových modelů: rozpoznávání řeči určování morfologických a syntaktických kategoríı strojový překlad určování vztahů mezi slovy filtrování generovaných textů Zipfův zákon (zákon mocniny) distribuce jazyka frekvence pozice = konstanta tedy pozice = konst/frekv log(pozice) = log(konst) log(frekv) Tvorba jazykových modelů z textových korpusů kvalitní model potřebuje (velmi) velké korpusy Úvod do počítačové lingvistiky 11/11 5 / 31 např.british National Corpus (BNC) cca 100 mil.slov, 774 tis. různých slov různá slova podle frekvence: 374,000 2 273,000 3 130,000 10 88,000 20 53,000 50 35,000 100 12,400 500 7,600 1,000 1,000 10,000 podstatné jméno test : frekvence 15789, pozice 918 relace object-of: pass, undergo, satisfy, fail, devise, conduct, administer, perform, apply, boycott relace modifier: blood, driving, fitness, beta, nuclear, pregnancy Úvod do počítačové lingvistiky 11/11 6 / 31 slovní spojení podstatného jména test : blood test v BNC, relace object-of: order (3), take (12) v enclueweb16 (70 mld.slov), relace object-of: order (708), perform (959), undergo (174), administer (123), conduct (229), require (676), repeat (80), run (347), request (105), take (1215) pregnancy test v BNC, 26 výskytů, žádná významná slovní spojení v enclueweb16, relace object-of: take (1765), perform (203), buy (237), administer (40) Úvod do počítačové lingvistiky 11/11 7 / 31 Úvod do počítačové lingvistiky 11/11 8 / 31

Co to je korpus? Co to je korpus? Co to je korpus? Typy korpusů Korpus skupina dokumentů Různé typy korpusů: textové mluvené Textový korpus: soubor textů charakteristiky rozsáhlý (stovky milionů až desítky miliard pozic/slov) v jednotném formátu stukturovaný v elektronické podobě vždy záleží na účelu a způsobu použití možnosti jazyk typy textů zdroj dat značkování... První korpus Úvod do počítačové lingvistiky 11/11 9 / 31 BNC Úvod do počítačové lingvistiky 11/11 10 / 31 Brown americká angličtina (1961) Brown University, 1964 gramatické značkování, 1979 500 textů, 1 mil. slov W. N. Francis & H. Kučera první statistické charakteristiky angličtiny relativní četnosti slov a slovních druhů British National Corpus britská angličtina, 10% mluva první velký korpus pro lexikografy vydavatelé slovníků (OUP) + univerzity 1. verze: 1991 1994, 2. verze: World Edition 2000 3000 dokumentů, 100 mil. slov gramatické značkování automatickým nástrojem Úvod do počítačové lingvistiky 11/11 11 / 31 Úvod do počítačové lingvistiky 11/11 12 / 31

BoE Další národní korpusy Bank of English britská angličtina COBUILD (HarperCollins), University of Birmingham 1991, dále rozšiřován 2002, 450 mil. slov Český národní korpus ÚČNK, FF UK SYN2000, SYN2005, SYN2010 à 100 mil. slov Litera, Synek, BMK,... Slovenský, Mad arský, Chorvatský,... Americký Korpusy na FI Úvod do počítačové lingvistiky 11/11 13 / 31 vytvořené na FI, příklady: Desam 1996, ručně značkovaný (desambiguovaný) 1 mil. slov Czes periodika z webu, z let 1996 1998, další el. zdroje, webové zdroje (crawl) 465 mil. *TenTen Chyby různé jazyky, ve spolupráci s LCL, UK 1 20 mld. pozic práce studentů předmětu Základy odb. stylu s vyznačenými chybami 400 tis. Korpusy na FI Úvod do počítačové lingvistiky 11/11 14 / 31 spolupráce Dopisy Mluv Kačenka ČNPK 1984 Otto Italian Giga Chinese Francouzský, Slovinský, Britská angličtina,... Úvod do počítačové lingvistiky 11/11 15 / 31 Úvod do počítačové lingvistiky 11/11 16 / 31

Kódování metainformací 1. archiv/kolekce různé formáty, podle zdroje/typu 2. textové banky jednotný formát a základní struktura dokumenty/texty, základní metainformace 3. vertikální text 4. binární data v aplikaci pomocná data pro rychlejší zpracování indexy statistiky escape-sekvence speciální znak mění význam následujících znaků \n, \t, &, <tag> SGML Standard Generalised Markup Language ISO 8879:1986(E) XML Extensible Markup Language W3C, 1998 XML Úvod do počítačové lingvistiky 11/11 17 / 31 Úvod do počítačové lingvistiky 11/11 18 / 31 Standardy pro ukládání textů struktura popsána v DTD elementy počáteční, koncová značka <doc>, <head>, </head>, <g/> atributy elementů/značek <doc title="jak pejsek..." author="čapek"> <head type="main"> entity >, <, &, é SGML/XML TEI Text Encoding Initiative (1994) TEI Guidelines for Electronic Text Encoding and Interchange CES, XCES Corpus Encoding Standard Úvod do počítačové lingvistiky 11/11 19 / 31 Úvod do počítačové lingvistiky 11/11 20 / 31

Obsah korpusu Obsah korpusu Obsah korpusu Tokenizace Co je v korpusu uloženo? text metainformace struktura dokumentu odstavce, nadpisy, verše, věty značkování informace o slovech/pozicích morfologie, základní tvary, syntaktické vazby,... Rozdělení textu do pozic může silně ovlivnit výsledky dotazování, četnosti i značkování token (pozice) = základní prvek korpusu většinou slovo, číslo, interpunkce bude-li, don t 4 možnosti: 1. don t 2. don t 3. don t 4. do n t v BNC zkratky (s tečkama?) datumy desetinná čísla,... Vertikální text Úvod do počítačové lingvistiky 11/11 21 / 31 Obsah korpusu Úvod do počítačové lingvistiky 11/11 22 / 31 Obsah korpusu Zpracování textů na UNIXu jednoduchý formát i jeho zpracování každý token na samostatném řádku struktury formou XML značek značkování odděleno tabulátorem (různé atributy k dané pozici) podrobnosti na: http://nlp.fi.muni.cz/ Informace pro současné a potenciální spolupracovníky Textové korpusy Popis vertikálů coreutils cat, head, tail, wc, sort, uniq, comm cut, paste, join, tr grep awk sed / perl Úvod do počítačové lingvistiky 11/11 23 / 31 Úvod do počítačové lingvistiky 11/11 24 / 31

Obsah korpusu Příklady použití coreutils slovník z vertikálního textu cut -f 1 -s desam.vert sort uniq -c \ sort -rn >desam.dict jednoduchá tokenizace tr -cs a-za-z0-9 \n <GPL >GPL.vert cat GPL.vert sort uniq -c sort -rn >GPL.dict všechny bigramy tail -n +2 GPL.vert paste GPL.vert - sort uniq -c sort -rn nástroje na zpracování korpusů uložení textu editace/příprava textu značkování rozdělení do pozic (tokenizace) vyhledávání (konkordance) statistiky Úvod do počítačové lingvistiky 11/11 25 / 31 Úvod do počítačové lingvistiky 11/11 26 / 31 korpusový manažer přímo podporuje uložení textu vyhledávání (konkordance) statistiky externí nástroje značkování rozdělení do pozic hlavní zaměření velké korpusy rozsáhlé značkování morfologické, syntaktické, metainformace návaznost na další aplikace/nástroje korpusový editor (CED), tvorba slovníků univerzálnost různé jazyky, kódování, systémy značek Úvod do počítačové lingvistiky 11/11 27 / 31 Úvod do počítačové lingvistiky 11/11 28 / 31

Kĺıčové vlastnosti Kĺıčové vlastnosti modulární systém přístup z různých rozhraní grafické uživatelské rozhraní (Bonito) aplikační programové rozhraní (API) příkazový řádek rozsáhlá data stovky mld. pozic neomezeně atributů a metainformací rychlost vyhledávání, statistiky multihodnoty zpracování víceznačných značkování dynamické atributy vyhledávání a statistiky na počítaných datech subkorpusy, paralelní korpusy silný dotazovací jazyk dotazy na všechny atributy, metainformace pozitivní/negativní filtry regulární výrazy + booleovské operátory Úvod do počítačové lingvistiky 11/11 29 / 31 Úvod do počítačové lingvistiky 11/11 30 / 31 Kĺıčové vlastnosti frekvenční distribuce víceúrovňová všechny atributy a metainformace kolokace různé statistické funkce Úvod do počítačové lingvistiky 11/11 31 / 31