Pravidlová extrakce slovesných kolokátů z parsovaného korpusu. Silvie Cinková Workshop tří projektů UFAL,

Podobné dokumenty
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

18.VY_32_INOVACE_AJ_UMB18, Frázová slovesa.notebook. September 09, 2013

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list

Past simple. = minulý prostý čas Použití: mluvíme o činnostech a aktivitách v. Časové výrazy: last week, yesterday, last year, on Monday

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Budějovice Název materiálu: Passive voice. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Střední škola obchodní, České Budějovice, Husova 9, VY_INOVACE_ANJ_741. Škola: Střední škola obchodní, České Budějovice, Husova 9

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Název projektu: Multimédia na Ukrajinské

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Přítomný čas prostý/ průběhový. Present simple/ present continuous. Výhradní výukový materiál portálu onlinejazyky.cz

EU peníze středním školám digitální učební materiál

Název sady: Anglický jazyk pro 2. ročník čtyřletých maturitních uměleckořemeslných oborů

Budějovice Název materiálu: Reported Speech. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

The form of the verb in past simple is the same for all persons. In questions and negatives we use did/didn t auxiliary verb and the base form.

VY_22_INOVACE_číslo přílohy 1_AJ_6A_29. Úvodní část seznámení s cílem hodiny pohádka The Ugly Ducklings

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Přítomný čas prostý a průběhový v angličtině

Verb + -ing or infinitive

Název projektu: Multimédia na Ukrajinské

Verbs Slovesa Test. PhDr. Zuzana Žantovská

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová

Project 3 Unit 7B Kelly s problem

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. Test

Základní škola Nový Bor,

VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce pro 5. ročník z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A19 Pořadové číslo: 19.

Digitální učební materiál

CZ.1.07/1.5.00/

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

AJ 3_08_Shopping.notebook. November 08, úvodní strana

river, valley, floods, mud, agriculture, desert, cattle, corn, god, pyramid, slave, tomb, faraon, farmer, temple, papyrus

CONDITIONALS PODMÍNKOVÉ VĚTY

Mgr. Lucie Cihlářová Datum vytvoření: Stup. vzdělávání: II. st. 9. třída

aneb Will Smith nebo Will Scarlet?

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text

Digitální učební materiál

WORKSHEET 1: LINEAR EQUATION 1

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Příjemce: Základní škola, Základní umělecká škola a Mateřská škola Lipnice nad Sázavou č. 213, Lipnice nad Sázavou

II_ _Listening Pracovní list č. 2.doc II_ _Listening Pracovní list č. 3.doc II_ _Listening Řešení 1,2.doc

Zjistit, jak žáci zvládli učivo prvního pololetí. Pomůcky: Psací potřeby Zdroje: vlastní. III_2-05_54 Half term test, 6yr - řešení

Project 2. My projects

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

PŘEDPŘÍTOMNÝ prostý ČAS - procvičení

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Minulý čas prostý. Past simple. Výhradní výukový materiál portálu onlinejazyky.cz


Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Present Simple and Continuous Přítomný čas prostý a průběhový Pracovní list

Psaná podoba jazyka, slovní zásoba

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Passive Trpný rod Pracovní list

CZ.1.07/1.5.00/

CZ.1.07/1.5.00/

CZ.1.07/1.5.00/

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Popis využití: Výukový materiál s úkoly pro žáky s využitím dataprojektoru, notebooku Čas: 15 minut

Snow White and seven dwarfs

Šablona: III/2 Sada: VY_22_INOVACE_57

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

CVIČENÍ NA SLOVESA SE DVĚMA PŘEDMĚTY

CASTING HAND PRODUCTION USING MOULDS

Theme 6. Money Grammar: word order; questions

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_20_AJ_G

Náhradník Náhradník 9.A

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

I. TVAROSLOVÍ / M orpholo a Slovní druhy а slovosled / Parts of speech and W ord order

seznamu nepravidelných sloves, osvojuje si správnou výslovnost, vede jednoduchý rozhovor

VY_INOVACE_61 MODAL VERBS

obj obl obl:arg nmod advmod

Anglický jazyk 5. ročník

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Popis využití: Výukový materiál s úkoly pro žáky s využitím dataprojektoru, notebooku Čas: 15 minut

VY_22_INOVACE_84. P3 U3 Revision

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Kód DUM : VY_22_INOVACE_CJ_III/2. 19 Základní škola a Mateřská škola Dobronín, příspěvková organizace, Polenská 162 / 4, Dobronín

CZ.1.07/1.5.00/

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

CZ.1.07/1.5.00/

ZÁZNAMOVÝ ARCH Anglický jazyk, 2.st. (šk.rok 2012/2013) 1.sada

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_1_AJ_G

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Digitální učební materiál


III_ _The Verb to Be sloveso Být pracovní list.doc III_ _The Verb to Be sloveso Být pracovní list - řešení.doc

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Transkript:

Pravidlová extrakce slovesných kolokátů z parsovaného korpusu Silvie Cinková Workshop tří projektů UFAL, 15.4. 2013

Strukturní i sémantické variabilita užití The wooden chair gave a frightened squeak. Mom gave me a cookie. The results gave them quite a shock. Joanna gave her a disgusted look. The audience gave him the raspberry. Finally, they had to give up.

Motivace Rozpoznávání patternů (daných lexikonem) Morfosyntaktická definice patternu Sémantická podobnost kolokátů na stejné syntakt. pozici

Které kolokáty nás zajímají Argumenty a volná doplnění, negace Slovesní sourozenci v koordinacích Gramatické kategorie u slovesa i kolokátů Větný druh (oznamovací, rozkazovací )

Jak se pozná sémantická podobnost Rozpoznání pojmenovaných entit WordNet Vlastní ontologie (BSO, Omega, DeepDict entities) Distribuční sémantika distribuční model Kvantitativní informace o distribuční podobnosti mezi každými dvěma slovy Možnost generalizace z většího korpusu

Extrakce stejné syntaktické pozice Pattern: oznamovací věta hlavní, většinou aktivní Pevný slovosled (neutrální) Canonical Sequence seřadíme větné členy do Canonical Sequence

Nezávisle na významu slovesa Strukturální ambiguita větných členů -> nemůžeme věřit parseru They called him OBJacc/OBJdat an idiot OBJ/PreNom/OBJ-acc They gave him OBJacc/OBJdat food. They called him OBJacc/OBJdat a doctor OBJ/PreNom/OBJ-acc. They gave the flowers to the girls. They sent him to Prague. 1. Analysis is easy for humans, because they consider the meaning of each verb. 2. The parser does mostly not. 3. We need the same extraction rules for all verbs!

Příklady The car (that was) stolen yesterday A growing problem It was John who broke the window The topic I was interested in They gave me a picture They gave a picture to me He is easy to please Doplnění Může tam být realizováno? Je tam? Jaké má lemma? I find it interesting that babies have to burp Certainly, he said. What do you fear?

Strukturální mnohoznačnost... persuaded the visitor to leave worked enough days to deserve one day off... shut the door to hide... hated the woman to go... became the first player to score

Kanonická posloupnost 1 2 3 4 5 Agent TV OBJ1/SC OBJ2/OC Prep+NP/ADV/RP/NPquant Bez sémantické informace často neumíme přiřadit syntaktickou nálepku, Ale aspoň víme, jaké je pořadí členů.

Clause templates (CLT) Klauzální šablony Pravidelné gramatické transformace Kanonické posloupnosti Pasívum, přívlastkové věty, cleft sentences, participia PMLTQ dotaz hledá cílové sloveso a jeho doplnění na pozicích daných příslušnou klauzální šablonou

Direct Object in a monotransitive clause 1 2 3 4 Agent TV OBJ1/SC OBJ2/OC They chased the fox. The fox was chased. 1 Agent 2 TV_act 3 ADJP OBJ1/SC 4 NP OBJ2/OC 1 Agent 2 TV_act 3 NP OBJ1/SC 4 NP OBJ2/OC 1 NP OBJ1 2 TV_pass 3 NP OBJ2 1 Agent 2 TV_act 3 to+be+np/like +NP/as+NP OBJ1/SC TEMPLATE NAME: OBJ_1 in a passive sentence with one object only

Passive by-phrase as Agent A cockatoo bit John. John was bitten by a cockatoo. The deadline was missed by a week. 1 NP Agent 2 TV_act 3 NP OBJ1/SC 4 NP OBJ2/OC n TV_pass n+x by+np Agent 1 2 3 4 5 (TV.ord+n) Agent TV OBJ1/SC OBJ2/OC by/with+np INSTR TEMPLATE NAME: BY-PHRASE_PASSIVE IN PASSIVE CLAUSES

Passive by-phrase as Instrumental Adverbial 1 2 3 4 5 (TV.ord+n) Agent TV OBJ1/SC OBJ2/OC by/with+np INSTR 1 Agent 2 TV_act (TV.ord+n) by/with+np INSTR Agent = Gen n TV_pass n+x by+np INSTR They broke the window by a hammer. The window was broken by/with a hammer. TEMPLATE NAME: BY- PHRASE IN ACTIVE CLAUSES TEMPLATE NAME: BY- PHRASE_PASSIVE IN PASSIVE CLAUSES

Give somebody a cold shoulder (treat somebody in an unfriendly way) Relations between verb, arguments and their modifiers α target verb α collocate verb argument β target give shoulder Targets & collocates SYNTAGMS No matter the number of tokens They can be defined by: Morphological features (e.g. genitive ) Lexical features (lemma/form) β collocate argument modifier cold

QUERY TEMPLATES Verb-Form Templates (VFT): α - target Verb-Argument Templates (VAT): α collocates Noun-Argument Templates (NAT): β - collocates Adjective-Argument Templates (AAT): γ - collocates Supra-Clause Templates (SCT): combines VFT, VAT, NAT, AAT syntactic labeling ( see Sentence Position Model)

Verb Form Templates (VFT) instead of grammatemes different combinations of grammatical verb categories get their respective labels finite x infinitive x participle present x past prespast x perfect simple x progressive auxdo member of coordination (left, right, none)

Verb Argument Templates (VATs) NP NP POS NP DT NP_quant NP WH coref REL NP WH coref pseudocleft Expletive it is subject of active that-clause Expletive it is subject of active wh-clause

COL_TV_NP Nouny word (Noun, non-relative nouny wh-word, personal pronoun, numeral) as an α-collocate

COL_TV_NP_quant A list of tags and lemmas not governed by a preposition that are not objects Dates, weekdays, names of months, holidays Measuring units, e.g. km, mile Of course not complete!

COL_TV_NP_WH_coref_rel Relative words with grammatically predictable coreference in an attributive sentence (i.e. governed by a noun) Except when, how, where, why, because their antecedents are not always straightforward The antecedent word identified and labeled $ANTECEDENT

COL_TV_NP_WH_coref_pseudocleft Relative pronoun in a pseudocleft sentence and its antecedent

COL_TV_expl_it_issubj_v_act_thatcl Expletive it as subject of active-voice verb, that-clause follows Not universally applicable with all verbs. Therefore the query contains a list of verbs that do this systematically and are frequent in the corpus: It seems that X It claims that This makes the query less powerful it won t find any other verbs occurring in this structure

COL_TV_VP_FIN_thatcl That-clause as an argument of TV