Elżbieta Kaczmarska Institute of Western and Southern Slavic Studies University of Warsaw
Corpus-based Analysis of Czech Units Expressing Mental States and Their Polish Equivalents
Motivation Czech Polish language contact difficulties with understanding some type of words especially psych verbs and nouns denominating emotions and feeling, e.g. být líto mít rád mrzet postrádat toužit 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 3
být líto, mít rád, mrzet, postrádat, toužit What makes their translation into Polish (so) difficult? - their polysemy, the absence of such a concept in Polish (Kaczmarska & Rosen: in print) Do they really represent polysemous verbs? 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 4
A Czech-Polish dictionary Siatkowski & Basaj 2002 - mít rád lubić, kochać - mrzet gniewać, złościć, mierzić, martwić, żałować, być przykro, nie mieć ochoty - toužit tęsknić, pragnąć, marzyć. Consequently we are not able to translate them into Polish properly. Context (for an avowal) Mám Tě rád... (???) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 5
mít rád For Polish-speaking person at least two quite different meanings kochać (to love) lubić (to like) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 6
The goal attempt to find a suitable equivalent for a given unit (psych verbs) consequently attempt to build an algorithm for selecting equivalents for verbs 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 7
What we will do a few steps At each stage, we find the best equivalent depending on the verb Czech Polish pairs of equivalents extracted from the parallel corpus InterCorp Valency analysis - how many arguments the given verb bounds - how the arguments are bound (grammatical case, prepositions, infinitive, relative clause) - what they are (if it is e.g. a noun what it is like a real one or an abstract one, naming a human being) Case Grammar - if the candidates for equivalents (in the aligned segments) represent the same categories of semantic roles (Experiencer and what else?) Pattern Grammar - If a word has several senses, and is used in several patterns, each pattern will occur more frequently with one of the senses than the others, such that the patterning of an individual example will indicate the most likely sense of the word in that example. (Hunston & Francis 2000: 20) Cognitive Grammar view meaning in terms of conceptualization 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 8
VERB Valence analysis Case Grammar Pattern Grammar Cognitive Grammar equivalent equivalent equivalent equivalent 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 9
Step one Valence analysis Assumption - in cases concerning some meanings the equivalent could be established on the basis of the convergence of the valence requirements (Levin 1993) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 10
toužit study case (a pilot survey Kaczmarska & Rosen 2013) Automatic extraction of pairs of equivalents from the parallel corpus InterCorp dictionary 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 11
toužit 673 toužit equivalent 304 toužit pragnąć 107 toužit chcieć 82 toužit tęsknić 70 toužit marzyć 40 toužit pożądać 24 toužit ochota 9 toužit zapragnąć 8 toužit pragnienie 8 toužit tęsknota 8 toužit zależeć 7 toužit spragniony 6 toužit życzyć 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 12
valence analysis toužit Number of arguments The way how the arguments are bound (grammatical case, prepositions, infinitive, relative clause) Type of arguments (if it is e.g. a noun what it is like a real one or an abstract one, naming a human being, a sentence, infinitive ) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 13
toužit toužit po Oabstr toužit po Ohum toužit po / do OR toužit + inf pragnąć + inf toužit + S (aby / po tom, aby ) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 14
toužit + inf pragnąć + inf toužit inf equivalent być pragnieniem inf 1 chcieć inf 20 chętnie + S 1 marzyć o Oabstr 4 mieć marzenie inf 1 mieć ochotę inf 1 pragnąć inf 44 pragnąć + S 1 pragnąć Oabstr 3 tęsknić za (+S) 1 zachciewać się Oabstr 1 other 2 80 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 15
toužit po Ohum equivalent marzyć o Ohum 2 mieć ochotę + inf 1 pożądać Ohum 5 pożądany Ohum 1 pragnąć X 1 pragnąć + inf 1 pragnąć Oabstr 1 pragnąć Ohum 12 tęsknić X 1 tęsknić do + S 1 tęsknić do Oabstr 1 tęsknić do Ohum 5 tęsknić za Ohum 2 zapragnąć Oabstr 1 zatęsknić za Ohum 1 other 1 37 toužit po OR equivalent chcieć + inf 1 marzyć + S 1 marzyć o OR 5 obiekt pożądania 1 pragnąć + inf 1 pragnąć OR 3 tęsknić za OR 2 14 toužit do OR tęsknić do OR 1 toužit po + Object toužit po Oabstr equivalent chcieć inf 1 dążyć do Oabstr 2 marzyć o Oabstr 20 marzyć o Ohum 1 myśleć o Oabstr 1 pożądać Oabstr 5 pragnąć + S 1 pragnąć inf 4 pragnąć Oabstr 29 pragnienie Oabstr 1 tęsknić do Oabstr 11 tęsknić za Oabstr 7 tęskno za Oabstr 1 upragniony Oabstr 1 zapragnąć inf 1 żądni Oabstr 1 other 7 94 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 16
Necessity for a deeper analysis of objects toužit po velké lásce / exotické cestě Śnić o wielkiej miłości / egzotycznej podróży Marzyć o wielkiej miłości / egzotycznej podróży Tęsknić za wielką miłością / egzotyczną podróżą (???) Pragnąć wielkiej miłości / egzotycznej podróży (?) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 17
Step two Case Grammar toužit Subject of toužit is always Experiencer Object of toužit is a kind of Source / Stimulus 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 18
Stál jsem i nyní stále kus od ní, kdežto ona naopak toužila po rychlém příchodu teplých doteků, které by přikryly tělo vystavené chladnosti pohledu. I teraz stałem nieco z dala od niej, podczas gdy ona, przeciwnie niż ja, tęskniła za szybkim dotknięciem ciepłych ramion, które osłoniły by jej ciało wystawione na chłód spojrzeń. Toužil po polibku, závěrečném, posledním polibku, do kterého by zachytil jako do čeřenu její tvář, která brzy zmizí a z níž mu zůstane jen vzpomínka. Pragnął pocałunku, ostatniego pocałunku, kończącego pocałunku, który pozwolił by mu pochwycić niczym w sieć tę twarz, co wkrótce zniknie i pozostawi po sobie jedynie wspomnienie. Mladý muž touží po vlastním divadle. Młody mężczyzna marzył o własnym teatrze. 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 19
In case of other verbs we can identify roles as: Agent, Beneficiary, Location, Time, Instrument, Substance, Object (itself) The analysis of the surface realization of the cases should be conducted. 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 20
Step three Patterns Grammar If a word has several senses, and is used in several patterns, each pattern will occur more frequently with one of the senses than the others, such that the patterning of an individual example will indicate the most likely sense of the word in that example. (Hunston & Francis 2000: 20) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 21
A pattern can be identified if a combination of words occurs relatively frequently, if it is dependent on a particular word choice, and if there is a clear meaning associated with it. (Hunston & Francis 2000: 37) We will check if there is a repeatability of a given object in the corpus occurrences. 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 22
být líto Jak mi ho bylo líto! Jakże mi go było żal! Je mi ho samozřejmě líto. Jest mi go oczywiście żal Přišlo mi jí prostě líto. Po prostu zrobiło mi się jej żal. být líto + NP DAT + NP GEN = żal Pak mi je líto. Wobec tego, przykro mi! Potom nám to bylo oběma líto. Potem nam obu było przykro. nabídne mi sisinku a já si vezmu, protože by mu bylo líto, kdybych si nevzala...zaprasza mnie na cuksa i ja biorę, bo było by mu przykro, gdybym nie wzięła být líto + NP DAT + to / Ø = (być) przykro 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 23
The possibility of using a universal tool Word Skeches We will check if there is a repeatability of a given object in the corpus occurrences. A universal tool (in a way) for pattern grammar, case grammar, valency Word Sketches an automatic method InterCorp Czech-Polish part 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 24
INFINITIV toužit inf-x pragnąć inf * marzyć inf * tęsknić inf post_inf 17 405 post_inf 6 800 mít 926 podziękować 805 stát 864 podkreślić 598 poznat 382 pogratulować 379 vidět 346 wyrazić 391 vrátit 333 zwrócić 319 hrát 333 przypomnieć 165 získat 332 powiedzieć 386 dostat 311 zauważyć 97 vyhrát 285 rozpocząć 73 žít 177 poruszyć 58 jít 176 powtórzyć 51 najít 152 skorzystać 70 udělat 143 powitać 43 spatřit 132 dodać 70 uspět 124 zaznaczyć 40 dělat 105 przyłączyć 33 napravit 101 wezwać 39 zůstat 99 zapytać 43 pracovat 96 poinformować 46 podívat 92 pochwalić 26 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 25
toužit po pragnąć marzyć o tęsknić za tęsknić do post_po 23 752 has_gen_obj 809 verb_o_noun 296 verb_za_noun 94 verb_do_noun 59 dítě 697 co 76 to 70 dom 6 spokój 3 láska 599 to 52 Europa 14 to 5 dom 3 návrat 555 Europa 34 powrót 10 junior 2 świat 3 úspěch 493 zachęcić 26 demokracja 5 mąż 2 słońce 2 vítězství 457 strona 16 wolność 4 żona 2 ciało 2 změna 455 coś 15 utopia 3 powrót 2 rzecz 2 život 361 powód 14 zemsta 3 ojciec 2 medaile 316 region 14 domek 3 coś 2 pomsta 287 śmierć 13 kariera 3 człowiek 2 klid 282 demokracja 12 miłość 3 czas 2 vztah 271 debata 12 nic 3 praca 2 moc 267 grupa 12 śmierć 3 postup 266 zmiana 12 rozmowa 3 kariéra 263 parlament 11 coś 3 titul 263 pokój 10 majestat 2 rodina 246 rozwój 10 posada 2 svoboda 218 okazja 9 teatr 2 výhra 189 wolność 8 ucieczka 2 bod 174 rezolucja 7 niepodległość 2 dobrodružství 171 prezydencja 6 hotel 2 odveta 156 współpraca 6 rewolucja 2 domov 155 kontynuacja 5 członkostwo 2 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 26
Word Sketches (InterCorp) pragnąć has_gen_obj 809 co 76 to 52 Europa 34 zachęcić 26 Kolokator NKJP (PELCRA) experimental research strona 16 coś 15 powód 14 region 14 śmierć 13 demokracja 12 debata 12 grupa 12 zmiana 12 parlament 11 pokój 10 rozwój 10 okazja 9 wolność 8 PELCRA (NKJP) pragnąć + Gen on 1460 człowiek 163 ty 143 życie 110 coś 107 bóg 63 kobieta 60 dziecko 57 świat 50 nic 47 miłość 43 śmierć 42 zmiana 42 dobro 37 mężczyzna 35 ojciec 34 pokój 31 kontakt 30 powrót 29 Word Sketches (CNK) toužit po post_po 23 752 dítě 697 láska 599 návrat 555 úspěch 493 vítězství 457 změna 455 život 361 medaile 316 pomsta 287 klid 282 vztah 271 moc 267 postup 266 kariéra 263 titul 263 rodina 246 svoboda 218 výhra 189 bod 174 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 27
toužit pragnąć tęsknić marzyć hodně 1099 bardzo 136 bardzo 34 jedynie 6 moc 1085 gorąco 40 ogromnie 3 często 5 tak 783 jedynie 19 niesamowicie 2 bardzo 5 už 778 jednocześnie 16 okropnie 2 próżno 4 tolik 773 rozpaczliwie 15 straszliwie 2 długo 4 vždycky 751 rzeczywiście 13 strasznie 2 dobrze 3 stále 543 szczerze 12 szczególnie 2 niejasno 2 dlouho 501 mocno 8 naturalnie 2 vždy 479 wyraźnie 8 nieustannie 2 také 468 dużo 7 stale 2 ani 444 obecnie 6 trudno 2 nikdy 433 ponownie 5 głośno 2 zoufale 401 oczywiście 5 pewno 2 velmi 399 wyłącznie 5 dużo 2 teď 394 dobrze 5 późno 2 marně 374 daleko 2 strašně 335 nijak 318 jen 301 opravdu 298 přesto 267 zase 252 prý 245 vůbec 235 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 28
Step four Cognitive grammar the meaning in terms of conceptualization mít rád kochać, lubić, przepadać (to love, to like, to be found) (Siatkowski and Basaj 2002) lubić, kochać, podobać się, uwielbiać, polubić, pokochać, w naszym guście InterCorp 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 29
(cs) Mám tě strašně rád, řekl. (Kundera-Valcik_na_rozl) (pl) Strasznie cię kocham rzekł. (Kundera-Valcik_na_rozl) (cs) Kdybys mě měla ráda, nemohla by ses opičit s tím pitomým jménem. (Grusa-Dotaznik) (pl) Gdybyś mnie naprawdę lubiła, nie wygłupiała byś się z tym kretyńskim imieniem. (Grusa-Dotaznik) (cs) Máš-li mne jen trošku rád, shoď mne z třetího patra, dej mně tu poslední outěchu. (Hasek-OsudyDobrehoVvSV) (pl) Jeśli masz dla mnie choć troszkę przyjaźni, zrzuć mnie z trzeciego piętra, udziel mi tej ostatniej pociechy. (Hasek-OsudyDobrehoVvSV) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 30
mít rád milovat mít rád kochać (to love) lubić (to like) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 31
mít rád in InterCorp (2799) lubić (przyjaźń, sympatia, polubić) TO LIKE (66%) kochać (miłość, zakochać się) TO LOVE (18%) inne (cieszyć się, woleć) OTHER (16%) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 32
Cognitive methods survey in Liberec mít rád / milovat Attemps to discover the meaning of mít rád on the basis of the opposition with milovat. What are the objects we combine with the verbs? If there are any differences between the two verbs? 30 respondents (19 57 year old) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 33
arguments milovat mít rád person, food, drinks, music, person, activity, activity, beer, food, nature, pets parents, girl friend, life, pets definition the highest level of love, "mít rád" but intensely, to be in a deep relationship, to feel 'love, something more than "mít rád", strong positive emotions to like someone or something, positive emotions 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 34
but also the Czechs are not quite sure Ovšem mít rád to člověk může mít knihu, kamaráda, psa... v tom není nic erotického. http://diskuse.doktorka.cz/mit-rad-zamilovat-se-milovat/archiv/0/ Vidím to přesně jako Arnika. Pro mě byly hranice teda vždy jasný. Zamilovaná jsem byla ze začátku do současného přítele. Už jsme spolu několik let, ale pořád ho miluju. Ráda mám třeba ex, se kterým jsme se rozešli už před 5 lety, ale v dobrém. Takže asi takhle zamilovanost zezačátku, miluju někoho potom, co prvotní zamilovanost přešla. A ráda mám kamarády, blízké atd http://diskuse.doktorka.cz/mit-rad-zamilovat-se-milovat/ Ono mít ráda můžu i rajskou nebo svoje hady, ale milovat... je prostě něco jiného http://www.poradte.cz/spolecnost/21684-milovat-nebo-mit-rad.html Miluji tě má jistý sexuální náboj. Milenci po setkání odhazují oblečení, cesta vede směrem k ložnici. Je v tom touha, láska, zamilovanost a chtíč. Pro dnešek, zítřek, rok, snad dva. Méně citu a porozumění. Mám tě rád je v tom všechno: cit, porozumění, láska, podpora. Že se jeden na druhého může spolehnout, budou spolu, až jim bude ouvej. Nebudou nikdy sami. Je to jako v němém filmu, kdy není třeba slov, protože hovoří oči, činy. V nich se zobrazuje láska, něha, starost. Mám tě rád už není jen o slovech. Je to o životě http://janajerabkova.blog.idnes.cz/c/194377/milovat-nebo-mit-rad.html 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 35
Is it really possible to tell someone else what one feels? Leo Tolstoy, Anna Karenina 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 36
Conclusions and perspectives Corpora make possible the definition of the clusters of equivalents (parallel corpus) Confrontative research difficulties with often incompatible tools Word Sketches promising tool prepared for the Polish part of InterCorp (not for Czech part); not available for external users Word Sketches available for SYN (Czech National Corpus). For the Polish language, a comparable corpus is NKJP (National Corpus of Polish), but we cannot use Word Sketches for NKJP. Czech and Polish corpora have different statistical functions. 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 37
Other methods: Disappointing results of the research based on Case Grammar A deeper cognitive analysis needed Problem of nonexistence of a concept in the other language an arbitrary decision of translator Experimental trials of stochastic modeling of the choice of an equivalent on the basis of the context (Kaczmarska, Rosen, Hana 2014) WSD Word Sense Disambiguation Tian et al. 2014; Młodzki at al. 2012; Tian et al. 2010; Han et al. 2013; Kędzia et al. 2014). Algorithms using different linguistic ideas (Han et al. 2013) 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 38
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 39
WSD Word Sense Disambiguation Tian et al. 2014; Młodzki at al. 2012; Tian et al. 2010; Han et al. 2013; Kędzia et al. 2014). Algorithms using different linguistic ideas (Han et al. 2013 o o o o o Han, A. L., Lu, Y., Wong, D.F., Chao, L.S., He, L., Junwen, X. (2013). Quality Estimation for Machine Translation Using the Joint Method of Evaluation Criteria and Statistical Modeling. W: Proceedings of the Eighth Workshop on Statistical Machine Translation, 365-372. Association for Computational Linguistics. Kędzia, P., Piasecki, M., Kocoń, J., Indyka-Piasecka, A. (2014). Distributionally Extended Network- Based Word Sense Disambiguation in Semantic Clustering of Polish Texts. W: IERI Procedia (International Conference on Future Information Engineering) 10, 38-44. DOI: 10.1016/j.jeri.2014.09.073 Młodzki, R., Kopeć, M. Przepiórkowski, A. (2012). Word Sense Disambiguation in the National Corpus Of Polish. Philological Studies (Prace Filologiczne) LXIII: 155-166. Tian, L., Wong, D. F., Chao, L. S., Oliveira, F. (2014). A Relationship: Word Alignment, Phrase Table, and Translation Quality. The Scientific World Journal. Hindawi Publishing Corporation. Dostęp z: http://dx.doi.org/10.1155/2014/438106 Tian, L., Wong, F., Chao, S. (2010). An Improvement of Translation Quality with Adding Key- Words in Parallel Corpus. W: Machine Learning and Cybernetics (ICMLC) Vol. 3, 1273 1278. DOI: 10.1109/ICMLC.2010.5580888 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 40