n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

Podobné dokumenty
P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Karel Pala, Vít Suchomel

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Workshop o paralelním korpusu InterCorp

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.

NLP & strojové učení

Analýza staročeské morfologie v Excelu

Jak lze v korpusech hledat doklady pro výzkum morfologie?

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Úvod do Operačních Systémů

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Základy XML struktura dokumentu (včetně testových otázek)

1. Přehled cizojazyčných a vícejazyčných korpusů

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

24. XML. Aby se dokument XML vůbec zobrazil musí být well-formed (správně strukturovaný). To znamená, že splňuje formální požadavky specifikace XML.

Publikování map na webu - WMS

PHP - úvod. Kapitola seznamuje se základy jazyka PHP a jeho začleněním do HTML stránky.

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

MASARYKOVA UNIVERZITA V BRNĚ FAKULTA INFORMATIKY. Korpusové manažery a jejich efektivní implementace. Pavel Rychlý

more Program se zastaví vždy po vypsání jedné stránky textu. Ukončení Ctrl+C less Umožňuje pohybovat se v souboru dopředu i dozadu.

K možnostem počítačového zpracování literárního textu

HTML Hypertext Markup Language

Uspořádání klient-server. Standardy pro Web

Jazyky pro popis dat

Úloha 3 editor a skripty. připojte se vzdáleně na dray6.feld.cvut.cz heslo získáte na adrese

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Značkovací jazyky a spol. HTML/XHTML XML JSON YAML Markdown, Texy!

Alena Malovaná, MAL305

Systémy pro tvorbu digitálních knihoven

Cvičení 3. Plán. Procesy. procesy, jobs Find Wildcards Příklad uživatelé. ZOS 2005, L. Pešička. eryx4> ps x

Tvorba jednoduchých WWW stránek. VŠB - Technická univerzita Ostrava Katedra informatiky

Frekvence Korelační analýza Jazykové zákony

Virtuální počítač. Uživatelský program Překladač programovacího jazyka Operační systém Interpret makroinstrukcí Procesor. PGS K.

1 Webový server, instalace PHP a MySQL 13

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Webové stránky. 2. Úvod do jazyka HTML. Datum vytvoření: str ánk y. Vytvořil: Petr Lerch.

Maturitní otázky z předmětu PROGRAMOVÁNÍ

APLIKACE XML PRO INTERNET

NSWI096 - INTERNET. Úvod do HTML

BASH. Kouzla s příkazovou řádkou. Petr Koloros

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

1. Manuál ke Sketch Engine

Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr

Aplikace vytěžování dat

PRODUKTY. Tovek Tools

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS

Ontologie v e-commerce

Obsah. Začínáme programovat v Ruby on Rails 9. Úvod Vítejte v Ruby 15. O autorovi 9 Poděkování 9

Kurz je rozdělen do čtyř bloků, které je možné absolvovat i samostatně. Podmínkou pro vstup do kurzu je znalost problematiky kurzů předešlých.

Specifikace rozhraní. Oznamovací povinnost podle zákona č. 307/2013 Sb., ve znění pozdějších předpisů. Martin Falc, SW architekt.

Logický datový model VF XML DTM DMVS

FILTRY V GNU/LINUXU ZLÍNSKÝ KRAJ. Obchodní akademie, Vyšší odborná škola a Jazyková škola s právem státní jazykové zkoušky Uherské Hradiště

Inovace výuky prostřednictvím šablon pro SŠ

Ukládání a vyhledávání XML dat

Syntaxe XML XML teorie a praxe značkovacích jazyků (4IZ238)

Algoritmizace a programování

verze platná od

Podporováno Technologickou agenturou České republiky, projekt TE

XML terminologie a charakteristiky. Roman Malo

Popis. Manuál Klávesové zkratky a příkazy - 1 -

Kde hledat odborné články?

Úvod do databázových systémů

Další povinnosti / odb. praxe. Návrh témat prací. Návaznost na další stud. prog.

Jak psát Bc. resp. Mgr. závěrečnou práci. Zpracoval: Karel Bílek

Základy WWW publikování

Správa VF XML DTM DMVS Datový model a ontologický popis

KAPITOLA 1 Představení platformy Microsoft SQL Server 2008

EXTRAKT z české technické normy

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

SQL a XML jako alternativa ke klasickým unixovým nástrojům

Úvod do databázových systémů B

Distanční opora předmětu: Databázové systémy Tématický blok č. 4: XML, DTD, XML v SQL Autor: RNDr. Jan Lánský, Ph.D.

Databázové systémy. Cvičení 6: SQL

Střední průmyslová škola elektrotechnická Praha 10, V Úžlabině 320 M A T U R I T N Í T É M A T A P Ř E D M Ě T U

Obsah KAPITOLA 1 Několik slov o Wordu

rychlý vývoj webových aplikací nezávislých na platformě Jiří Kosek

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Obsah a značkování diachronního korpusu češtiny 1

LinuxDays 2017 Ondřej Guth GNU grep LD 17 1 / 14

Faktorované překladové modely. Základní informace

PRODUKTY. Tovek Tools

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

ČESKÁ TECHNICKÁ NORMA

PRG036 Technologie XML

Vývoj Internetových Aplikací

1. Webový server, instalace PHP a MySQL 13

Základní příkazy UNIXu (Linuxu)

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Úvod do kvantitativní lingvistiky. Radek Čech

Příručka pro potvrzování zůstatku vydavatelům karetních platebních prostředků

TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH

Transkript:

n-gramy a textové korpusy n-gramy Pavel Rychlý, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Úkol: Je zadáno n slov textu, jaké slovo následuje s největší pravděpodobností? Obsah: Co to je korpus? např. diktování: Nově označené { láhve láhvové } se dostanou na trh... n-gramy pokrač. Úvod do počítačové lingvistiky 11/11 1 / 31 n-gramy Markovovy modely Úvod do počítačové lingvistiky 11/11 2 / 31 Markovovy modely Obecně máme text jako řetězec slov W = w 1 w 2 w 3... w n Na vstupu zatím w 1 w 2... w i 1, chceme určit nejpravděpodobnější w i Možnosti: použijeme pravděpodobnost P(w i ) vypočítáme unigramy ty ale neberou v úvahu předchozí kontext nejlepší pravděpodobnost podle celého předchozího vstupu n-gramy: P(w i w 1 w 2... w i 1 ) = P(w 1...w i ) P(w 1...w i 1 ) P(w i w 1 w 2... w i 1 ) P(w 1... w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1... w i 1 ) problém potřebujeme n-gramy pro velké n řešení Markovův předpoklad o lokálním kontextu (řádu n) Nejbližší kontext (n slov) nejvíce ovlivňuje pravděpodobnost slova w i Pro n = 1: P(w 1... w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 2 )... P(w i w i 1 ) P(w i w 1 w 2... w i 1 ) = P(w i w i 1 ) P(w i w i 1 ) = počet(w i 1w i ) počet(w i 1 )... bigramy! Markovův model pravděpodobnostní konečný automat pro všechna slova Úvod do počítačové lingvistiky 11/11 3 / 31 Úvod do počítačové lingvistiky 11/11 4 / 31

Markovovy modely Markovovy modely využití Zipfův zákon (zákon mocniny) distribuce jazyka Využití jazykových modelů: rozpoznávání řeči frekvence pozice = konstanta určování morfologických a syntaktických kategoríı strojový překlad tedy pozice = konst/frekv log(pozice) = log(konst) log(frekv) určování vztahů mezi slovy filtrování generovaných textů Tvorba jazykových modelů z textových korpusů kvalitní model potřebuje (velmi) velké korpusy Úvod do počítačové lingvistiky 11/11 5 / 31 např. British National Corpus (BNC) cca 100 mil.slov, 774 tis. různých slov různá slova podle frekvence: 400,000 freq = 1 374,000 freq 2 273,000 freq 3 130,000 freq 10 88,000 freq 20 53,000 freq 50 35,000 freq 100 12,400 freq 500 7,600 freq 1,000 1,000 freq 10,000 podstatné jméno test : frekvence 15789, pozice 918 relace object-of: pass, undergo, satisfy, fail, devise, conduct, administer, perform, apply, boycott relace modifier: blood, driving, fitness, beta, nuclear, pregnancy Úvod do počítačové lingvistiky 11/11 6 / 31 slovní spojení podstatného jména test : blood test v BNC, 204 výskytů, relace object-of: order (3), take (12) v enclueweb (70 mld.slov), 205220 výskytů, relace object-of: order (2323), undergo (808), administer (456), perform (2783), screen (129), request (442), conduct (860), refuse (195), repeat (254), scan (203), require (2345), recommend (502), schedule (192), run (1721), take (5673), interpret (102), arrange (162) pregnancy test v BNC, 26 výskytů, žádná významná slovní spojení v enclueweb, 54103 výskytů, relace object-of: take (7953), administer (134), buy (1094), undergo (145), perform (560) Úvod do počítačové lingvistiky 11/11 7 / 31 Úvod do počítačové lingvistiky 11/11 8 / 31

Co to je korpus? Co to je korpus? Co to je korpus? Typy korpusů Korpus skupina dokumentů Různé typy korpusů: textové mluvené Textový korpus: soubor textů charakteristiky rozsáhlý (stovky milionů až desítky miliard pozic/slov) v jednotném formátu stukturovaný v elektronické podobě vždy záleží na účelu a způsobu použití možnosti dělení korpusů podle jazyk typy textů zdroj dat značkování... První korpus Úvod do počítačové lingvistiky 11/11 9 / 31 BNC Úvod do počítačové lingvistiky 11/11 10 / 31 Brown americká angličtina (1961) Brown University, 1964 gramatické značkování, 1979 500 textů (à 2000 slov), 1 mil. slov W. N. Francis & H. Kučera první statistické charakteristiky anglických slov relativní četnosti slov a slovních druhů British National Corpus britská angličtina, 10 % mluva první velký korpus pro lexikografy vydavatelé slovníků (OUP) + univerzity 1. verze: 1991 1994, 2. verze: World Edition 2000 3000 dokumentů, 100 mil. slov gramatické značkování automatickým nástrojem Úvod do počítačové lingvistiky 11/11 11 / 31 Úvod do počítačové lingvistiky 11/11 12 / 31

BoE Další národní korpusy Bank of English britská angličtina COBUILD (HarperCollins), University of Birmingham 1991, dále rozšiřován 2002, 450 mil. slov Český národní korpus ÚČNK, FF UK SYN2000, SYN2005, SYN2010, SYN2015 à 100 mil. slov SYN 3.8 mld. slov Litera, Synek, BMK,... Slovenský, Mad arský, Chorvatský,... Americký Korpusy na FI Úvod do počítačové lingvistiky 11/11 13 / 31 vytvořené na FI, příklady: Desam 1996, ručně značkovaný (desambiguovaný) 1 mil. slov Czes periodika z webu, z let 1996 1998, další el. zdroje, webové zdroje (crawl) 465 mil. *TenTen různé jazyky, ve spolupráci s LCL, UK 1 20 mld. pozic Chyby práce studentů předmětu Základy odb. stylu s vyznačenými chybami 400 tis. Korpusy na FI Úvod do počítačové lingvistiky 11/11 14 / 31 spolupráce Dopisy Mluv Kačenka ČNPK 1984 Otto Italian Giga Chinese Francouzský, Slovinský, Britská angličtina,... Úvod do počítačové lingvistiky 11/11 15 / 31 Úvod do počítačové lingvistiky 11/11 16 / 31

Kódování metainformací 1. archiv/kolekce různé formáty, podle zdroje/typu 2. textové banky jednotný formát a základní struktura dokumenty/texty, základní metainformace 3. vertikální text 4. binární data v aplikaci pomocná data pro rychlejší zpracování indexy statistiky escape-sekvence speciální znak mění význam následujících znaků \n, \t, &, <tag> SGML Standard Generalised Markup Language ISO 8879:1986(E) XML Extensible Markup Language W3C, 1998 XML Úvod do počítačové lingvistiky 11/11 17 / 31 Úvod do počítačové lingvistiky 11/11 18 / 31 Standardy pro ukládání textů struktura popsána v DTD/XML Schema elementy počáteční, koncová značka <doc>, <head>, </head>, <g/> atributy elementů/značek <doc title="jak pejsek..." author="čapek"> <head type="main"> entity >, <, &, é SGML/XML TEI Text Encoding Initiative (1994) TEI Guidelines for Electronic Text Encoding and Interchange CES, XCES Corpus Encoding Standard Úvod do počítačové lingvistiky 11/11 19 / 31 Úvod do počítačové lingvistiky 11/11 20 / 31

Tokenizace Co je v korpusu uloženo? text metainformace (většinout atributy <doc>) struktura dokumentu odstavce, nadpisy, verše, věty značkování informace o slovech/pozicích morfologie, základní tvary, syntaktické vazby,... Rozdělení textu do pozic může silně ovlivnit výsledky dotazování, četnosti i značkování token (pozice) = základní prvek korpusu většinou slovo, číslo, interpunkce bude-li, don t 4 možnosti: 1. don t 2. don t 3. don t 4. do n t v BNC zkratky (s tečkami?) datumy desetinná čísla,... Vertikální text Úvod do počítačové lingvistiky 11/11 21 / 31 jednoduchý formát i jeho zpracování každý token na samostatném řádku ( udává tokenizaci) struktury formou XML značek značkování odděleno tabulátorem (různé atributy k dané pozici) <doc n=2 id="cmp/94/10"> <head p="80%"> Úpadku úpadek k1ginsc3 zabránili zabránit k5magmnpap výkonem výkon k1ginsc7 </head> <p> <s p="90%"> Po po k7c6 několika několik k4gfnpc6 akcích akce k1gfnpc6 Úvod do počítačové lingvistiky 11/11 22 / 31 Zpracování textů na UNIXu coreutils cat, head, tail, wc, sort, uniq, comm cut, paste, join, tr grep awk sed / perl podrobnosti na nlp.fi.muni.cz/cs/popisvertikalu Úvod do počítačové lingvistiky 11/11 23 / 31 Úvod do počítačové lingvistiky 11/11 24 / 31

Příklady použití coreutils slovník z vertikálního textu cut -f 1 -s desam.vert sort uniq -c \ sort -rn >desam.dict jednoduchá tokenizace tr -cs a-za-z0-9 \n <GPL >GPL.vert cat GPL.vert sort uniq -c sort -rn >GPL.dict všechny bigramy tail -n +2 GPL.vert paste GPL.vert - sort uniq -c sort -rn nástroje na zpracování korpusů uložení textu editace/příprava textu značkování rozdělení do pozic (tokenizace) vyhledávání (konkordance) statistiky Úvod do počítačové lingvistiky 11/11 25 / 31 Úvod do počítačové lingvistiky 11/11 26 / 31 korpusový manažer přímo podporuje uložení textu vyhledávání (konkordance) statistiky externí nástroje značkování rozdělení do pozic hlavní zaměření velké korpusy rozsáhlé značkování morfologické, syntaktické, metainformace návaznost na další aplikace/nástroje korpusový editor (CED), tvorba slovníků univerzálnost různé jazyky, kódování, systémy značek Úvod do počítačové lingvistiky 11/11 27 / 31 Úvod do počítačové lingvistiky 11/11 28 / 31

Kĺıčové vlastnosti Kĺıčové vlastnosti modulární systém přístup z různých rozhraní grafické uživatelské rozhraní (Bonito) aplikační programové rozhraní (API) příkazový řádek rozsáhlá data stovky mld. pozic neomezeně atributů a metainformací rychlost vyhledávání, statistiky multihodnoty zpracování víceznačných značkování dynamické atributy vyhledávání a statistiky na počítaných datech subkorpusy, paralelní korpusy silný dotazovací jazyk dotazy na všechny atributy, metainformace pozitivní/negativní filtry regulární výrazy + booleovské operátory Úvod do počítačové lingvistiky 11/11 29 / 31 Úvod do počítačové lingvistiky 11/11 30 / 31 Kĺıčové vlastnosti frekvenční distribuce víceúrovňová všechny atributy a metainformace kolokace různé statistické funkce Úvod do počítačové lingvistiky 11/11 31 / 31