Sémantická interpretace

Podobné dokumenty
Formální jazyky a gramatiky Teorie programovacích jazyků

Syntaxe gramatiky a syntaktické struktury

Bezkontextové jazyky. Bezkontextové jazyky 1 p.1/39

Syntaxe gramatiky a syntaktické struktury

/1: Teoretická informatika(ti) přednáška 4

Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1

PSANÍ. My room is a mess. Anglický jazyk. Hana Vavřenová

Unární je také spojka negace. pro je operace binární - příkladem může být funkce se signaturou. Binární je velká většina logických spojek

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Predikátová logika Individua a termy Predikáty

Dataprojektor, kodifikační příručky

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Matematická analýza pro informatiky I. Limita funkce

2 Formální jazyky a gramatiky

Sémantický web a extrakce

Bezkontextové jazyky 2/3. Bezkontextové jazyky 2 p.1/27

Výroková logika. Teoretická informatika Tomáš Foltýnek

Ontologie. Otakar Trunda

Turingovy stroje. Teoretická informatika Tomáš Foltýnek

Modifikace: atributivní použití adjektiv, druhy adjektiv,

Ročník: 4. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů

1 Báze a dimenze vektorového prostoru 1

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

Typy predikátů: slovesa, predikativní jména, adjektiva, tranzitivní slovesa, relativní 1 věty / 10

1 Úvod do kompilátorů

Český jazyk v 5. ročníku

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

teorie logických spojek chápaných jako pravdivostní funkce

Modely Herbrandovské interpretace

Základní pojmy matematické logiky

Výroková a predikátová logika - II

Místo pojmu výroková formule budeme používat zkráceně jen formule. Při jejich zápisu

Český jazyk - Jazyková výchova

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Výroková a predikátová logika - II

Výroková a predikátová logika - IX

Matematická logika. Miroslav Kolařík

/01: Teoretická informatika(ti) přednáška 5

Automaty a gramatiky(bi-aag) Formální překlady. 5. Překladové konečné automaty. h(ε) = ε, h(xa) = h(x)h(a), x, x T, a T.

Matematická logika. Miroslav Kolařík

Úvod do informatiky. Miroslav Kolařík

10. Techniky formální verifikace a validace

Dataprojektor, jazykové příručky, pracovní listy

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

SADA VY_32_INOVACE_CJ1

2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.

Český jazyk ve 4. ročníku

2.2 Sémantika predikátové logiky

Výroková a predikátová logika - II

Výroková logika syntaxe a sémantika

Olympiáda v českém jazyce 45. ročník, 2018/2019

Všestranný jazykový rozbor (VJR)

Výroková a predikátová logika - IV

Úvod z historie. Kompilátory. Kompilace / Kompilátor Compile / Compiler. Pojem kompilátoru. Úvod z historie

Výroková a predikátová logika - VII

Autor: Jan Hošek

Matematická analýza pro informatiky I. Limita posloupnosti (I)

Fuzzy logika a reálný svět, aneb jsou všechny hromady skutečně malé?

1. Matematická logika

Matematika B101MA1, B101MA2

Operační výzkum. Síťová analýza. Metoda CPM.

Pumping lemma - podstata problému. Automaty a gramatiky(bi-aag) Pumping lemma - problem resolution. Pumping lemma - podstata problému

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Výroková a predikátová logika - X

12. Křivkové integrály

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory

4.2 Syntaxe predikátové logiky

Výroková a predikátová logika - IX

Výroková a predikátová logika - XII

Výroková a predikátová logika - VIII

Logika a logické programování

Matematická logika. Lekce 1: Motivace a seznámení s klasickou výrokovou logikou. Petr Cintula. Ústav informatiky Akademie věd České republiky

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE LL SYNTAKTICKÁ ANALÝZA DOKONČENÍ, IMPLEMENTACE.

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

Výstupy z RVP Učivo Ročník Průřezová témata Termín/hodiny Komunikační a slohová výchova 12 čte s porozuměním přiměřeně náročné texty potichu i nahlas

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Dolování asociačních pravidel

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

PSANÍ. (1) My address is Dlouhá 34, Liberec. Thank you and!

Lineární algebra : Skalární součin a ortogonalita

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

vzdělávací oblast vyučovací předmět ročník zodpovídá JAZYK A JAZYKOVÁ KOMUNIKACE ANGLICKÝ JAZYK 4. G. GREGOVSKA

Německý jazyk. Mgr. Jitka Jakešová. Z á k l a d o v ý t e x t :

Český jazyk a literatura - jazyková výchova

Systém souborů (file system, FS)

Primární a sekundární výskyt označující fráze. Martina Juříková Katedra filozofie, FF UP v Olomouci Bertrand Russell,

Teorie měření a regulace

Výroková a predikátová logika - VIII

EXTRAKT z mezinárodní normy

Relační datový model. Integritní omezení. Normální formy Návrh IS. funkční závislosti multizávislosti inkluzní závislosti

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Množiny, relace, zobrazení

Transkript:

Vysoké učení technické v Brně Fakulta informačních technologií Sémantická interpretace Moderní teoretická informatika Semestrální projekt Autor: Zdeněk Martínek Školitel: RNDr. Jitka Kreslíková, CSc. 19. prosince 2004

Abstrakt Tato práce popisuje formální aparát využitelný pro zpracování přirozeného jazyka, zejména se zaměřením na správnou interpretaci sémantiky syntaktického výrazu. Je zde popsáno několik konstrukcí včetně příkladů pro snadnější pochopení. Klíčová slova Sémantická interpretace, zpracování přirozeného jazyka Obsah 1. ÚVOD... 3 2. SÉMANTICKÁ INTERPRETACE... 4 3. KATEGORIE SLOV... 6 4. BAR... 7 5. ZÁVĚR... 11 6. LITERATURA... 12

1. Úvod Neomezené transformační gramatiky mohou generovat nerozhodnutelné množiny a tudíž je jejich generativní síla větší než jaká je potřeba pro přirozené jazyky. Nejnovější výzkum se soustředí na omezení síly gramatik. Bylo vymyšleno několik nových přístupů, z nichž je v následujícím textu popsán postup pro sémantickou interpretaci. Dříve se pro popis přirozeného jazyka používali gramatiky skládající se z následujících komponent: komponenta popisující frázovou strukturu transformační komponenta Takový přístup opomíjel další důležité aspekty gramatik, jako je: sémantická interpretace pro syntaktický výraz (tj. výklad významu gramatického uspořádání slov ve výrazu) struktura lexikonu (tj. jak je strukturován slovník jazyka) V uplynulých letech byly tyto oblasti extenzivně studovány a v důsledku změnily obrys celé lingvistické teorie. Nejvýraznějšími změnami bylo: obohacení struktury slovníku omezení síly bezkontextových gramatik snížení síly transformací zkoumání formy sémantické interpretace

2. Sémantická interpretace Pro představu pravidel méně zachovávajících strukturu (tzn. pravidla, která změní strukturu řetězce významným způsobem), uvažujme pravidlo pro derivaci complex nominals (složeného podstatného jména). Toto pravidlo má na vstupu větu jako (a) a derivuje jmennou frázi (b), nominalizaci věty. (a) John destroyed the book. (b) John s destruction of the book. Je zde zřejmá motivace pro spojení dvou slov destroy a destruction, protože mají stejnou tématickou strukturu (jejich význam je podobný). V běžném transformačním modelu neexistuje jiný způsob, jak toto spojení vyjádřit jinak než transformacemi. I bez detailního popisu pravidla můžeme říct, že takové transformace budou vyžadovat 4 hlavní části: 1. Celá fráze musí změnit kategorie z S (sentence - věta) na (noun phrase jmenná fráze). 2. PP (preposition phrase předložková fráze) musí být zkonstruována s of jako předložkou. 3. John musí být změněn na John s. 4. Sloveso destroy se musí změnit na podstatné jméno destruction. S VP John V destroyed the book Det N PP s P destruction John of the book Obr. 1 změna věty na jmennou frázi

Tento postup je složen pouze z neomezených transformačních pravidel (unconstrained transformational rules). Navíc schopnost vytvořit strukturu, která je potřebná pro jiné části jazyka (tj. výsledná PP, která je vytvořena), stejně tak jako síla pro změnu kategorií (z S (věty) na (jmennou frázi) v tomto případě), velmi ztěžuje pro parser problém rozpoznání. Raději než použít transformace pro spojení struktur (jako jsou v našem případě (a) a (b)), které nesou sémantickou podobnost, měli bychom generovat obě formy za použití pravidel frázových struktur (phrase structure rules) gramatiky a spojit slova destroy a destruction lexikálně. S tímto alternativním přístupem nejsou potřeba transformace k derivaci nominální formy. Transformační pravidlo derivující nominální formu bylo ukázáno kvůli nastínění intuice, že jak slovesná, tak nominální forma mají stejný doplněk, the book, a že funguje jako objekt v obou strukturách. Měli bychom poznamenat, že lingvisté používají výraz doplněk (complement) pro jakýkoliv druh objektu. Např. přímý objekt slovesa nebo jmennou frázi, která je objektem předložky (preposition). Bez transformací lze identifikovat frázi obsahující podstatné jméno a jeho doplněk s frází obsahující sloveso a jeho doplněk jako utváření ekvivalentní třídy. Tj. VP (slovesná fráze) v (a) utváří ekvivalentní třídu s frází destruction of the book. Chomsky byl první, kdo vypracoval teorii strukturování frází založenou na relaci ekvivalence mezi nahraditelnými frázemi. Jeho analýzy velmi ovlivnili směr lingvistického výzkumu.

3. Kategorie slov Využitím analogického konceptu jako je obsahový vektor ( feature vector ) ve fonologii, můžeme uvažovat jednoduché kategorie v jazyce jako dekomponovatelné na menší jednotky. Nechť kategorie a neterminály mají strukturu záznamu, každý záznam je kolekce pojmenovaných atributů nesoucích specifickou hodnotu. Například vytvořme následující strukturu. Každý záznam má dva atributy nazvané noun (podstatné jméno) a verb (sloveso), které mohou mít hodnotu + nebo (podobně jako pravdivostní hodnoty 1 a 0). Takové strukturování nám vytvoří čtyři hlavní třídy slov v jazyce. Zkrácená reprezentace je následující: N: [+N], [-V] (noun - podstatné jméno) V: [-N], [+V] (verb - sloveso) A: [+N], [+V] (adjective přídavné jméno) P: [-N], [-V] (preposition - předložka) Je zřejmé, proč podstatné jméno má hodnoty atributů [+N] a [-V], stejně tak jako sloveso [-N] a [+V]. Zřejmé už ovšem není, jak byly stanoveny hodnoty atributů u přídavného jména a předložky. Tyto hodnoty jsou motivovány intuitivním pozorováním přirozených jazyků. Nejdříve uvažujme přídavné jméno. V mnoha jazycích existuje shoda přídavného jména s podstatným jménem, jež rozvíjí a stejně tak shoda podmětu s přísudkem. Například v němčině je povinná shoda mezi přídavným a podstatným jménem v rámci jmenné fráze. (1) die roten Rosen (2) the red roses Tudíž stejně jako podstatná jména a slovesa, přídavná jména ukazují shodu. Samozřejmě určitý člen ve frázi (1) je také ve shodě, takže shoda není unikátní vlastnost, kterou sdílí přídavná jména s podstatnými jmény a slovesy. Je zde ještě další indikace, že přídavná jména mají některé vlastnosti podstatných jmen. To můžeme ilustrovat na příkladu z turečtiny. Turečtina je jazyk bohatý na skloňování a časování, kde přípony nahrazují význam a funkci celých slov v jazycích jako je angličtina. Zajímavou vlastností (stejně jako v mnoha jiných jazycích) je, že přídavná jména mohou být použita jako podstatná jména. Např. genc znamená mladý a gencler mládež, mladí nebo mládě. Z toho plyne, že přídavná jména mohou někdy vystupovat jako podstatná jména. Také někdy zastupují i slovesa, samozřejmě v případě, že jsou doplněny o příslušnou příponu. Po popsání tohoto chování dávají smysl pro kategorie přídavných jmen hodnoty [+N] a [+V]. Co je tedy impulzem k hodnotám kategorie předložek? Je to nedostatek jakékoliv podobnosti k ostatním kategoriím. Proto dáváme hodnoty [-N] a [-V].

4. BAR Nyní uveďme novou vlastnost pro kategorie - BAR, která určuje úroveň fráze. Příklad objasní přesný význam této vlastnosti. V předchozích odstavcích jsme viděli sloveso destroy a podstatné jméno destruction připouštějící objekt nebo doplněk ( the book ). VP V destroy the book N PP destruction of the book Obr. 2: Slovesná a odpovídající jmenná fráze Přítomností of v jmenné frázi () se nezabýváme. Můžeme jí považovat za vloženou do přiřazení k objektu, protože podstatná jména na rozdíl od sloves nemohou přiřazovat. Řekněme, že fráze obsahující podstatné jméno a jeho doplněk (celý strom s kořenem ) je projekcí vlastností podstatného jména (N) a dědí jeho vlastnosti zdola. K rozlišení mezi uzlem N a jemu nadřazenému uzlu zavedeme novou vlastnost, BAR. N má vlastnost BAR = 0, kdežto nadřazený uzel má BAR = 1. Toto je ilustrováno na následujícím obrázku, kde jsou fráze z obr. 2, ale popsány pomocí příslušných atributů. VP: [-N, +V, BAR=1] V: [-N, +V, BAR=0] destroy the book : [+N, -V, BAR=1] N: [+N, -V, BAR=0] PP destruction of the book Obr. 3: Slovesná a jmenná fráze s atributy

Hodnotu BAR můžeme považovat za úroveň fráze. Například uvažujme frázi V, která má úroveň 1, a odpovídající frázi s podstatným jménem a jeho doplňkem N též úrovně 1. Definujme relaci ekvivalence má n BAR. Potom třída ekvivalence X = {N, V, A, P } je třída frází obsahujících lexikální položku a její doplněk. Tyto třídy odpovídají slovům, která jsou dvoumístným predikátem. Například X (y, z), kde X je predikát a y, z jsou argumenty. Pokud X je skutečná lingvistická konstrukce, tak přídavná jména a předložky musí mít také doplňky. V přirozených jazycích je možné opravdu nalézt předpokládaná přídavná jména, která mají dva argumenty. Například afraid ( John is afraid of snakes. ), tzn. afraid (John, snakes). Podobné je to u předložek, kde například under ( The cat is under the table. ) má také dva argumenty - under (cat, table). V kontrastu k výše popsanému jsou jednomístná predikativní přídavná jména jako red nebo sick např. ve větě The cat is sick.. Podobnost v syntaktické struktuře je ilustrována na následujícím obrázku. N N PP painting of Bill V V painted Bill John is [A [A afraid] of snakes] A A PP afraid of snakes Obr. 4a: Podobnost syntaktických struktur

The cat is [P [P under] the table] P P under the table Obr. 4b: Podobnost syntaktických struktur Jelikož všechny možné kategorie definované systémem dvou vlastností popisují povolení doplňků jedné nebo další kategorie, tak můžeme zavést proměnnou X, která bude odkazovat na všechny čtyři kategorie a zobecňovat tyto čtyři struktury do jednoho frázově strukturového pravidla: X X Comp V takovém pravidle je X začátkem fráze a Comp je doplňkem nebo koncem fráze. Toto pravidlo se rozpadá na následující čtyři pravidla: V V Comp N N Comp A A Comp P P Comp Z pravidel je zřejmé, že Comp je vždy doplňkem příslušné kategorie, tzn. závisí na zvoleném X. Chomsky napsal, že existuje napříč kategoriemi specifikátor (Spec), který je příbuzný k frázi X. Intuitivně je to fráze, která blíže specifikuje nebo dělá jednoznačnou tu frázi, s kterou je příbuzná. Příkladem je jmenná fráze the green ball, kde the je specifikátor určující jednoznačnost objektu. X dohromady se specifikátorem tvoří X. X Spec X Opět tento výraz nahrazuje čtyři následující pravidla: V Spec V N Spec N A Spec A P Spec P I když se jedná o nový zápis, tak jsou to již důvěrně známé struktury. Pravidlo pro N například, je mírně odlišné od následujícího (jmenná fráze) pravidla: Det A N PP

Jak je výše uvedeno, tak specifikátor jmenné fráze je obvykle člen (určitý či neurčitý). Pro jmennou frázi the destruction of the book bude vypadat kostra následovně (uzel přídavného jména není v tomto příkladě obsažen): N Spec N the N destruction comp of the book Obr. 5: Struktura jmenné fráze se specifikátorem Rovněž pravidlo pro V je pravidlo pro slovesnou frázi, kde Spec je pozice pro pomocné sloveso, jako je should, have, has atd. To je ve shodě s naší intuicí, že tyto pomocná slovesa fungují jako bližší specifikátor aktivity označované slovesem. Následuje příklad slovesné fráze has destroyed the book z věty John has destroyed the book. : V Spec V has V destroyed comp the book Obr. 6: Struktura slovesné fráze se specifikátorem

5. Závěr Pravidla: X Spec X X X Comp jsou základními komponentami takzvané X -teorie. Tato teorie říká, že základní pravidla (bezkontextové gramatiky) pro všechny přirozené jazyky musí splňovat následující velmi omezenou formu přepisovacích pravidel: X n (Y n...) X n-1 (Z n...) kde X, Y a Z pokrývá hodnoty vlastností [±N] a [±V] a horní index ukazuje bar úroveň fráze. Uzel X 0 nazýváme hlavou (head) fráze, protože cesta začíná v listě X 0, kam jsou vlastnosti děděny. Důležitost X -teorie pro lingvisty spočívá v tom, že základní frázově strukturovaná gramatika (phrase structure grammar) pro přirozený jazyk je velmi omezena ve své formě. Všechna pravidla musí splňovat daný vzor.

6. Literatura [1] Češka, M.: Teoretická informatika 1, UITS FIT VUT, Brno, skripta: http://www.fit.vutbr.cz/study/courses/ti1/public/texty/ti.pdf [2] Češka, M.: Teoretická informatika 2, UITS FIT VUT, Brno, slajdy z přednášek [3] Smrž, P.: Úvod do počítačové lingvistiky, http://www.fi.muni.cz/~smrz/ib030/hpsg.pdf