Jak najít optimální překlad polysémních sloves porovnání metod formální analýzy paralelních textů 1
|
|
- Miluše Jandová
- před 6 lety
- Počet zobrazení:
Transkript
1 Elżbieta Kaczmarska Alexandr Rosen ČASOPIS PRO MODERNÍ FILOLOGII 97, 2015, Č. 2, S Jak najít optimální překlad polysémních sloves porovnání metod formální analýzy paralelních textů 1 Elżbieta Kaczmarska (Warszawa) Alexandr Rosen (Praha) IN SEARCH OF THE OPTIMAL TRANSLATION OF POLYSEMOUS VERBS COMPARING METHODS OF FORMAL ANALYSIS OF PARALLEL TEXTS Our goal is to identify factors that influence the choice of equivalents of psych verbs when translating between typologically close languages such as Polish and Czech. Using the example of the Czech verb toužit to yearn, to desire we show that these verbs may be perceived differently by native speakers of Polish and Czech as ambiguous or unambiguous. Translation of such verbs is equally challenging. We start with the hypothesis that the choice of an equivalent is determined primarily by syntactico-semantic properties of the source lexeme, especially by its valency. Based on the analysis of lexemes and their arguments in parallel texts we identify regularities and preferences for the choice of an equivalent. Manual analysis is complemented by an automatically extracted bilingual glossary with frequencies. The results show that valency is an important, but not the only factor. OPEN ACCESS KEYWORDS Czech, Polish, psych verbs, valency, parallel corpus KLÍČOVÁ SLOVA čeština, polština, slovesa duševních stavů, valence, paralelní korpus 1. ÚVOD Čeština a polština vykazují při srovnání řadu jevů charakteristických pro typologicky velmi blízké jazyky, např. vysokou frekvenci tzv. zrádných slov (viz např. Lotko, 1992). Časté jsou však i jevy typické spíše pro jazyky vzdálenější, např. problémy s identifikací vhodného lexikálního ekvivalentu. 2 Příkladem mohou být pojmy vyjadřující duševní stavy, např. mít rád, být líto nebo toužit. Slovesa označující city a emoce jsou z tohoto pohledu zvlášť problematická pro svou víceznačnou, náznakovou a subjektivní povahu. Ekvivalent se pak hledá velmi obtížně a část původního významu se při překladu ztrácí. Někdy ani není možné význam výrazu v cílovém jazyce vyjádřit, protože odpovídající pojem chybí (Kaczmarska Rosen, 2014b). Lze ho opsat jinými slovy (např. kilkanaście deset až dvacet ) nebo aproximovat více ekvivalenty, ale 1 Za inspiraci a obětavou pomoc s využitím programových nástrojů děkujeme J. Hanovi, B. Vidové, O. Bojarovi, D. Marečkovi, H. Skoumalové a T. Jelínkovi. Práce na tomto projektu byla částečně podpořena z grantu MŠMT Český národní korpus, č. LM V této práci se nezabýváme definicí ekvivalence a ekvivalentu. Viz např. Baker (1992), Catford (1965), Dąmbska-Prokop (2000), Hejwowski (2009), Koller (1995) či Nida (1995).
2 158 ČASOPIS PRO MODERNÍ FILOLOGII 97, 2015, Č. 2 žádný z nich samostatně ani všechny jako celek nemusí pokrýt přesně stejné sémantické pole. 3 Rodilí mluvčí češtiny takové výrazy jako polysémní většinou nevnímají, 4 existence příslušného výrazu v jiném jazyce a jeho absence v jazyce vlastním však bývá pro polské mluvčí důvodem neporozumění obsahu sdělení. Tradiční slovníky nabízejí jen omezený počet ekvivalentů, většinou bez příkladů užití. Například pro toužit uvádí česko-polský slovník 5 tři významově odlišné ekvivalenty: tęsknić, 6 marzyć 7 a pragnąć. 8 Bez dalších informací (valence, kolokace) je pro uživatele nemožné vybrat ekvivalent, který do kontextu zapadne. Někdy však ani kontext nepomůže: vyznání mám tě rád lze přeložit jako lubię cię 9 nebo jako kocham cię 10 s podstatně odlišným významem. Cílem této práce je ověřit hypotézu, že vhodné ekvivalenty pro slovesa označující psychické stavy lze stanovit na základě formálně uchopitelné syntakticko-sémantické analýzy argumentů těchto sloves. Postupujeme tak, že v kontextu českého lexému zkoumáme faktory, které vedou k volbě polského ekvivalentu. Vycházíme přitom z ručně roztříděných paralelních konkordancí lexému toužit a jeho ekvivalentů jako reprezentativního příkladu slovesa s výraznou polysémií (alespoň z hlediska polských mluvčích) a s několika významově odlišnými ekvivalenty (viz též Kaczmarska Rosen, 2013). Výsledky doplňujeme a ověřujeme seznamem ekvivalentů s údaji o frekvenci, excerpovaných automaticky z paralelních textů na základě zarovnání po slovech. Vzhledem k tomu, že původní hypotézu lze potvrdit jen částečně a automaticky excerpovaný dvoujazyčný glosář neumožňuje predikci optimálního ekvivalentu na základě kontextu, rozšiřujeme analýzu na další faktory s využitím stochastického klasifikátoru a syntakticky strukturovaného kontextu v paralelních textech. Podrobnější popis a evaluace jsou však mimo rámec článku. 3 Podle Lewandowské-Tomaszczyk (1984, 2013) stoprocentní ekvivalenty neexistují; je ale možné najít množinu sémanticky blízkých jednotek (a cluster of equivalents) a využít je při překladu. 4 Např. SSJČ (Havránek et al., 2011) definuje mít rád v bodu 2 u hesla rád takto: pociťovat k někomu náklonnost, lásku; milovat 2,3 ; mít v oblibě, milovat 3. Odkazy na milovat sice vylučují mileneckou lásku (milovat 1 ), ale z definice i z příkladů (mají se rádi a budou se brát) je zřejmé, že významové pole výrazu je široké a značně homogenní. 5 Viz Siatkowski Basaj (2002), který obsahuje 53 tisíc hesel a 28 tisíc výrazů; standardní polsko-český slovník (Oliva, 1994) obsahuje 80 tisíc hesel. 6 Překlad definic podle internetové verze výkladového slovníku Słownik Języka Polskiego 1) cítit žal, být smutný kvůli nepřítomnosti jiné osoby, absenci kontaktu s někým nebo s něčím, 2) silně toužit (pragnąć) získat něco, dosáhnout něčeho ( pwn.pl/szukaj/tęsknić.html) 7 1) představovat si to, po čem se touží (pragnąć), přemítat o příjemných věcech, často nereálných, 2) velmi silně po něčem toužit (pragnąć), 3) arch. snít ( marzyć.html) 8 1) velmi něco chtít, 2) dychtit (pożądać) po někom, 3) chtít něco říct, vysvětlit ( pwn.pl/szukaj/pragnąć.html) 9 1) chovat k někomu sympatie, 2) nacházet v něčem zalíbení, 3) o rostlinách, zvířatech, věcech: vyžadovat, potřebovat něco ( 10 obdařovat někoho pocitem lásky, někoho/něco hodně mít rád; také: chovat vůči osobě opačného pohlaví vřelé city spojené s erotickou touhou (
3 elżbieta kaczmarska alexandr rosen 159 V části 2 popisujeme ruční analýzu korpusových konkordancí, jejíž souhrn pak představujeme v části 3. V části 4 se zabýváme excerpcí dvoujazyčného glosáře a jeho srovnáním s předchozími výsledky. Poslední část 5 se pak věnuje diskusi a perspektivám, včetně možností, jak využít metody strojového učení k nalezení kontextově nejvhodnějšího ekvivalentu obtížně přeložitelných lexémů. 2. RUČNÍ ANALÝZA Je valenční struktura českých sloves duševních stavů významným faktorem při volbě jejich polských ekvivalentů? Zde se na tuto otázku pokoušíme odpovědět metodou ruční analýzy paralelních konkordancí. 11 Data pocházejí z 5. vydání paralelního korpusu InterCorp. 12 Jeho jádro tvoří originály a překlady beletristických textů s ručně zkontrolovaným zarovnáním po větách. Zbytek je z větší části právnická a publicistická literatura, zpracovaná automaticky. Zde pracujeme jen s česko-polskou beletrií, pro ruční analýzu si z ní vybíráme jen původní české texty v rozsahu 1,8 milionu slov. Pilotní studie slovesa toužit (Kaczmarska Rosen, 2013) byla založena na předpokladu, že pro některé významy může být ekvivalent určen konvergencí valenčních požadavků. 13 Při syntaktické a sémantické analýze argumentů českého slovesa a jeho polských ekvivalentů jsme postupovali takto: (i) vyhledali jsme překlad českého slovesa v zarovnaných polských segmentech, (ii) určili jsme počet a typy jeho argumentů (např. substantivum odkazující na lidskou bytost, abstraktní nebo konkrétní entitu) a (iii) jeho morfosyntaktické vlastnosti (prostý nebo předložkový pád, infinitiv, vedlejší věta). Nakonec jsme (iv) prozkoumali argumentovou strukturu ekvivalentů. Očekávali jsme, že výsledky analýzy umožní ve většině případů predikovat nejvhodnější ekvivalent Valencí v tomto článku rozumíme počet argumentů řízených slovesným predikátem spolu s jejich morfosyntaktickými a sémantickými vlastnostmi (viz např. Dębski, 1982; Daneš Hlavsa, 1987; Rytel, 1989; Greń Rytel-Kuc, 1991; Čermáková, 2009; Urbańczyk-Adach, 2001; Kaczmarska, 2001). Jde nám přitom zejména o valenci objektovou. Podrobnější popis syntaktických a sémantických vlastností zkoumaných sloves bude předmětem dalšího výzkumu. 12 Viz Čermák Rosen (2012) a Kaczmarska Rosen (2014a). InterCorp je jako část Českého národního korpusu prohledávatelný on-line, viz V prosinci 2014 bylo zveřejněno jeho 7. vydání. 13 Vycházíme z předpokladu, že syntaktické chování slovesa závisí do značné míry na jeho významu (Levin, 1993). Bereme také v úvahu možnost, že překladatel preferuje ekvivalent se stejnou nebo podobnou valenční strukturou. 14 Zde je namístě otázka, zda InterCorp je pro takový výzkum dostatečně reprezentativním korpusem, konkrétně zda zastoupení různých valenčních rámců slovesa toužit v korpusu Inter- Corp je srovnatelné s daty z jednojazyčného korpusu. Pro srovnání jsme použili beletristickou část korpusu SYN (120 mil. pozic z celkového počtu 2,7 miliardy, viz přístup dne ). Relativní frekvence tvarů slovesa toužit je 83,1 ipm (items per million), což je méně než v česko-polské části InterCorpu 5, omezené na české originály, totiž ipm. Z toho usuzujeme, že různé typy užití slovesa toužit jsou v korpusu InterCorp zastoupeny dostatečně, i když konkrétní poměry mezi frekvencemi různých valenčních rámců mohou být odlišné.
4 160 ČASOPIS PRO MODERNÍ FILOLOGII 97, 2015, Č. 2 Kromě argumentů lze zkoumat i další větné členy spojené s daným slovesem, např. adverbiale, ale zde se soustředíme na objektové argumenty, u nichž předpokládáme, že budou mít na volbu ekvivalentu největší vliv. 15 Objekty slovesa toužit jsme roztřídili do 5 skupin podle kombinace dvou kritérií: sémantické klasifikace a morfosyntaktické realizace (viz tabulka 1). 16 Celkem jsme takto zpracovali všech 246 výskytů slovesa toužit. Pro každý typ uvádíme vždy několik příkladů s typem realizace argumentů v polštině a na závěr souhrnnou tabulku, která navíc ukazuje podobně zpracované výskyty slovesa toužit v českých překladech z polských originálů. Typ Klasifikace Absolutní Relativní objektu frekvence typu frekvence typu toužit po Oh lidská bytost % toužit po Oa abstraktum % toužit po Or konkrétum 35 6 % toužit Inf infinitiv % toužit (po) S vedlejší věta (po tom,) aby 23 9 % CELKEM % tabulka 1. Zastoupení valenčních typů slovesa toužit v originální české beletrii z česko-polské části korpusu InterCorp TOUŽIT PO OH (1) toužit po Oh pragnąć Oh (12 výskytů 32 %) 17 Jsi krásná, nepřestanu po tobě toužit a bát se tvé krásy Jesteś piękna, nigdy nie przestanę cię pragnąć i bać się twojej urody (2) toužit po Oh tęsknić do S (1 výskyt 3 %) Miláčku, já netoužím po rodině. Kochanie, ja nie tęsknię do tego, by założyć rodzinę. (3) toužit po Oh marzyć o Oh (2 výskyty 5 %) Vždycky jsem toužila po člověku, který by byl prostý a přímý. Zawsze marzyłam o człowieku, który był by prosty i bezpośredni. 15 Tento předpoklad se podařilo nezávisle potvrdit: stochastický klasifikátor vybral ze všech větných členů syntakticky závislých na slovese objektové argumenty jako ty, které o volbě ekvivalentu rozhodují nejvíce (Kaczmarska et al., v tisku). 16 Primární syntaktická klasifikace na základě valenčního slovníku (Lopatková et al., 2014), která v daném případě není dostatečně vypovídající, byla prohloubena o sémantické třídy objektu. Taková klasifikace má za následek, že někdy je třídu objektu obtížné určit jednoznačně, např. výrazy jako rodina, domov, části těla nebo láska lze interpretovat při ruční analýze podle kontextu alespoň dvěma způsoby. 17 Procenta udávají podíl na celkovém počtu dokladů daného českého valenčního typu.
5 elżbieta kaczmarska alexandr rosen TOUŽIT PO OA (90 VÝSKYTŮ) (4) toužit po Oa pragnąć Oa (29 výskytů 32 %) Ale zatím chce, abych život snášel a po smrti toužil. A tymczasem chce, bym życie znosił, a śmierci pragnął. (5) toužit po Oa tęsknić do Oa (11 výskytů 12 %) Já toužím po lásce. Ja tęsknię do miłości. (6) toužit po Oa tęsknić za Oa (7 výskytů 8 %) Netoužím po tomhle slizkém bratrství. Nie tęsknię za takim oślizłym braterstwem. (7) toužit po Oa marzyć o Oa (20 výskytů 22 %) Byli jsme unaveni, promočeni a toužili jsme po odpočinku. Byliśmy zmęczeni, przemoczeni i marzyliśmy o odpoczynku. (8) toužit po Oa pożądać Oa (5 výskytů 6 %) Ale po té slasti Bernard netoužil. Ale Bernard takiej rozkoszy nie pożądał. 2.3 TOUŽIT PO OR (9) toužit po Or tęsknić za Or (2 výskyty 13 %) Celý život jsem toužila po skutečném domově. Całe życie tęskniłam za prawdziwym domem. (10) toužit po Or marzyć o Or (5 výskytů 33 %) Mladý muž touží po vlastním divadle. Młody mężczyzna marzył o własnym teatrze. (11) toužit po Or pragnąć Or (3 výskyty 20 %) Mé patro, vyprahlé po noci zpola probdělé a zpola neklidně prosněné, toužilo po jejím vřelém a mrazivě vonném doušku. Moje podniebienie, wyschnięte po nocy na wpół przemarzonej i na wpół prześnionej, pragnęło jej gorącego, orzeźwiająco wonnego łyku. 2.4 TOUŽIT INF (12) toužit Inf chcieć Inf (20 výskytů 25 %) Toužil jsem vidět ho zblízka, anebo se aspoň zeptat, kdo to je a co znamená. Strasznie chciałem zobaczyć go z bliska albo przynajmniej się spytać, kto to jest i co to znaczy.
6 162 ČASOPIS PRO MODERNÍ FILOLOGII 97, 2015, Č. 2 (13) toužit Inf pragnąć Inf (44 výskytů 30 %) Dobře děláš, řekl náhle v obluzení, touže ji zlíbat a cítě strach. Dobrze robisz rzekł jak urzeczony, pragnąc ucałować ją i czując jednocześnie strach. (14) toužit Inf marzyć o Oa (4 výskyty 5 %) Netoužila o něm dlouze rozprávět. Nie marzyła o długiej rozmowie na ten temat. 2.5 TOUŽIT (PO) S (15) toužit S pragnąć S (13 výskytů 57 %) Celý život toužil, aby milovaná žena byla s to tlouci kvůli němu hlavou o zeď, křičet zoufalstvím anebo skákat radostí po pokoji. Przez całe życie pragnął, żeby ukochana kobieta gotowa była bić dla niego głową w mur, wyć z rozpaczy i skakać z radosći po mieszkaniu. (16) toužit S chcieć Inf (4 výskyty 17 %) Toužila, aby s ní sdílelo její samotu alespoň nějaké zvířátko. Chciała dzielić z kimś swą samotność, choćby z jakimś zwierzątkiem. (17) toužit po S chcieć S (2 výskyty 9 %) Obama netouží po tom, aby se problémy evropského dluhu rozšířily do Ameriky. Prezydent Obama nie chce przecież, żeby europejski problem długu państwowego przeniósł się do Ameryki. 3. SHRNUTÍ RUČNÍ ANALÝZY Výsledky ruční analýzy shrnuje tabulka 2, pro srovnání i s údaji o českých textech přeložených z polštiny. 18 Typy objektu v češtině jsou ve druhém řádku tabulky, odděleně pro české a polské originály. První dva sloupce obsahují ekvivalenty, tj. lemma a typ objektu v polštině. Např. sloveso toužit, v českých originálech ve spojení s abstraktním objektem (toužit po Oa), má v polských překladech 20 dokladů ekvivalentu marzyć o Oa. Stejné spojení (marzyć o Oa) v polských originálech přeložených do češtiny jako toužit po Oa má 5 výskytů. I když je celkový počet výskytů toužit v přeložených textech výrazně nižší (145 oproti 219), tendence volby ekvivalentů jsou podobné jako u opačného směru překladu, zvlášť u častěji zastoupených ekvivalentů, jako je třeba pragnąć V 5. vydání InterCorpu je počet slov v českých a polských textech téměř stejný asi 1,8 milionu. 19 Původní české texty vykazují vyšší frekvence lexému toužit než překlady do češtiny obecně, alespoň na základě dat z korpusu InterCorp (Kaczmarska Rosen, 2013). Zatímco u polských textů je poměr frekvence toužit v originálech k překladům 1,67 a u německých 1,87, u ruských textů je to 2,37, a ve španělštině dokonce 3,13. Částečně to lze vysvět-
7 elżbieta kaczmarska alexandr rosen 163 toužit (po) České originály Polské originály Polský ekvivalent Valence Oa Oh Or Inf S Oa Oh Or Inf S chcieć Oa chcieć Inf chcieć S dążyć do Oa łaknąć Or marzyć o Oa marzyć o Oh marzyć o Or marzyć S mieć ochotę Inf pożądać Oa pożądać Oh pragnąć Oa pragnąć Oh pragnąć Or pragnąć Inf pragnąć S pragnąć pragnienie Oa (s)próbować Inf spragniony Oa tęsknić do Oa tęsknić do Oh tęsknić za Oa tęsknić za Oh tęsknić za Or złakniony Oa JINÉ tabulka 2. Polské ekvivalenty českého slovesa toužit shrnutí Ruční analýza částečně potvrdila hypotézu, že valence ovlivňuje volbu polského ekvivalentu. U slovesa toužit však lze ekvivalent spolehlivě určit jen ve spojení s infinitivem (v 81 % případů), tedy pro vzorec toužit Inf pragnąć / chcieć / mieć ochotę Inf. 20 V ostatních typech výsledky nebyly průkazné. 21 U abstraktních objektů je velký rozptyl ekvilit skladbou textů (tj. značným zastoupením děl Milana Kundery mezi českými originály), ale prostor zůstává i pro zdůvodnění založené na problematičnosti volby tohoto lexému při překladu do češtiny. 20 Výrazy pragnąć / chcieć / mieć ochotę považujeme za synonymní. Hlavní rozdíl je v intenzitě pocitu. 21 Nezkrácené výsledky viz Kaczmarska Rosen (2013).
8 164 ČASOPIS PRO MODERNÍ FILOLOGII 97, 2015, Č. 2 valentů zvlášť markantní a ukazuje na potřebu hlubší analýzy objektů. Jako test jsme zvolili dva abstraktní objekty velká láska (wielka miłość) a exotická cesta (egzotyczna podróż). Se slovesem toužit se oba spojují snadno: toužit po velké lásce / exotické cestě. Znatelně vybíravější jsou v kombinaci se třemi nejčastějšími polskými ekvivalenty: (18) Marzyć o wielkiej miłości / egzotycznej podróży Tęsknić za wielką miłością / egzotyczną podróżą (?) Tęsknić do wielkiej miłości / egzotycznej podróży (?) Pragnąć wielkiej miłości / egzotycznej podróży (?) Oba objekty jsou stejně přijatelné se slovesem marzyć, ale ani jeden s tęsknić. 22 Sloveso pragnąć je také méně přijatelné ve spojení s exotickou cestou. Nejednoznačné výsledky ruční analýzy si žádají podrobnější zkoumání, která by výsledky ověřila, případně odhalila další faktory ovlivňující volbu ekvivalentů. 4. AUTOMATICKÁ EXCERPCE EKVIVALENTŮ Při ruční analýze v části 2 jsme se omezili na několik lexémů a původní české texty. K ověření výsledků jsme provedli automatickou extrakci dvojic lexémů 23 ze všech česko-polských textů v jádru 6. vydání InterCorpu, a to bez ohledu na směr překladu (asi 12 mil. slov na české i polské straně). 24 Výsledkem bylo 8,7 milionu dvojic lemmat, z nichž 0,5 milionu dvojic bylo jedinečných, celkem se 121 tisíci českými a 98 tisíci polskými lemmaty. 25 Každému zarovnanému českému lexému ze vstupních textů tedy byla přiřazena množina ekvivalentů s frekvencí výskytu u každého z nich. Česko- -polský glosář lze snadno proměnit na polsko-český setříděním dvojic podle polského sloupce. V příkladu (19) uvádíme seznam 16 nejčastějších ekvivalentů slovesa toužit, setříděný podle frekvence (v závorkách). 22 Ve spojení s tęsknić je spojení přijatelné jen v případě, že velkou láskou je lidská bytost, a nikoli abstraktní pojem. 23 Podrobnější údaje o metodě zarovnání po slovech viz Och Ney (2003), byly použity jen věty zarovnané 1 : 1 a nejpřísnější nastavení, které vybírá jen spolehlivěji určené dvojice ekvivalentů. Alternativním nástrojem může být např. Polské texty byly lemmatizovány nástroji Morfeusz ( a TakIPI ( viz Piasecki, 2007), české nástrojem Morče ( ufal.mff.cuni.cz/morce/index.php, viz Votrubec, 2006). Z jiných projektů překladových slovníků na základě paralelního korpusu lze uvést např. Skoumalová (2008) nebo Jirásek (2011). Přehled o možnostech extrakce dvoujazyčných slovníků z paralelních a srovnatelných korpusů obsahuje Sharoff et al. (2013). Česko-polský glosář už posloužil pro kontrastivní lexikální studii deminutiv, viz Rosen et al. (2014). Metoda samotná byla použita i na další dvojice jazyků z InterCorpu. Výsledky jsou dostupné na 24 Tj. včetně textů, jejichž originál je v jiném jazyce větší objem textů v novějším vydání, navíc bez omezení na jazyk originálu, totiž zvyšuje spolehlivost zarovnání po slovech. 25 Rozdíl v počtu lemmat je způsoben zejména odlišnými zásadami lemmatizace v češtině a polštině.
9 elżbieta kaczmarska alexandr rosen 165 (19) pragnąć (304), chcieć (107), tęsknić (82), marzyć (70), pożądać (40), ochota (24), zapragnąć (9), pragnienie (8), tęsknota (8), zależeć (8), spragniony (7), życzyć (6), upragniony (5), chęć (4), szukać (4), zatęsknić (4) V tabulce 3 porovnáváme relativní frekvence některých častějších ekvivalentů slovesa toužit. Frekvence byly zjištěny jednak na základě ruční excerpce z dat omezených na české a polské originální texty (sloupec 1 a 2), jednak na základě automatické excerpce ze všech beletristických česko-polských textů korpusu InterCorp, včetně překladů z jiných jazyků (sloupec 3). Z údajů vyplývá, že rozdíly v zastoupení jednotlivých ekvivalentů ve výsledcích ruční metody použité na menších a přísněji vybraných datech a automatické na větších a méně restriktivně vymezených datech nejsou zásadní. ruční excerpce z polských překladů českých originálů ruční excerpce z polských originálů automatická excerpce z polských originálů i překladů chcieć 10,50 % 12,73 % 15,46 % marzyć 15,13 % 8,18 % 9,93 % ochota 0,84 % 0,91 % 3,40 % pożądać 4,20 % 4,55 % 5,96 % pożądany 0,42 % 0,91 % 0,28 % pragnąć 49,58 % 54,55 % 43,69 % pragnienie 1,26 % 3,64 % 1,13 % tęsknić 13,45 % 4,55 % 11,63 % zapragnąć 1,26 % 0,91 % 1,28 % tabulka 3. Relativní frekvence polských ekvivalentů slovesa toužit při ruční a automatické excerpci 5. DISKUSE A PERSPEKTIVY Metodu ruční analýzy a automatické extrakce, podobně jako všechny další metody zkoumání lexikálních ekvivalencí v paralelních textech, lze použít na libovolné relevantní lexémy, tedy nejen na obtížné případy typu toužit, kde se hypotéza o vlivu valence na volbu polského ekvivalentu potvrdila jen částečně. 26 Konkrétně u slovesa toužit je možné spolehlivě určit ekvivalent jen ve spojení s infinitivem. U jiných tříd objektů výsledky nebyly průkazné a ukázaly na potřebu hledání dalších faktorů, nejlépe opět spojením hlubší analýzy paralelních konkordancí na menším vzorku dat s jejím doplněním a ověřením na větších datech automatickou metodou. Hlavním důvodem je nepochybně fakt, že volba ekvivalentu u sloves citového vnímání při překladu z češtiny do polštiny patří mezi velmi náročné úkoly i pro překladatele. Rozdíly mezi jednotlivými významovými odstíny jsou často minuciózní nebo obtížně uchopitelné, a rodilí mluvčí tato slovesa dokonce někdy ani jako polysémní nevnímají. Proto 26 Podobně byla zkoumána také slovesa mrzet, být líto a mít rád, viz Kaczmarska (2015a, 2015b).
10 166 ČASOPIS PRO MODERNÍ FILOLOGII 97, 2015, Č. 2 je namístě uvažovat i o jiných faktorech, které se modelují a parametrizují hůře než argumentová struktura: širší kontext, situace nebo styl. Tak například může hrát roli skutečnost, zda entita nebo událost vyjádřená daným argumentem už existuje nebo existovala v minulosti, zda s ní subjekt už někdy přišel do styku. V takovém případě se toužit přeloží spíše jako tęsknić (např. toužím po moři tęsknię za morzem). V případě opačném, kdy se něco může stát nebo objevit v budoucnosti nebo nikdy, je namístě spíše marzyć (toužím být zdravá marzę, żebym była zdrowa). Snáze zjistitelnou okolností může být rod mluvčího, např. kochać (milovat) je pravděpodobně vhodnější ekvivalent pro mít rád než lubić (líbit se, mít rád), pokud je mluvčím žena. Automatické metody jsou perspektivní především tím, že se dají použít na mnohem větší objemy textů. Automaticky pořízený seznam excerpovaných ekvivalentů však kromě frekvence nenabízí žádné vodítko, který z nich je v daném kontextu nejvhodnější. K doplnění a ověření závěrů ruční analýzy je třeba sofistikovanější metoda, která bere v úvahu kontext. Takový úkol může zvládnout i standardní stochastický klasifikátor, jehož cílem je predikovat nejvhodnější polský lexikální ekvivalent na základě českého lexému a jeho kontextu (Kaczmarska et al., 2015). Kontext je přitom možné chápat různě: (i) jako lineární posloupnost několika lemmat vlevo a vpravo od zkoumaného lexému nebo (ii) v podobě syntakticky závislých větných členů, přesněji jako jejich funkčně a slovnědruhově identifikované hlavy spolu s lemmaty. Metoda současně poskytuje i údaje o tom, které údaje mají pro volbu ekvivalentu nejvyšší vypovídací hodnotu (information gain). I když ani výsledky automatických metod nelze v této fázi interpretovat jednoznačně, optimalizací parametrů, kvalitnějšími daty a detekcí dalších údajů z textu směřujeme k podchycení a evaluaci dalších potenciálních faktorů, a tím pádem i k co nejlepší predikci lexikálního ekvivalentu. Pokud by bylo možné dospět k signifikantním a zároveň algoritmicky identifikovatelným faktorům, 27 byly by výsledky využitelné např. pro strojový překlad (viz např. Bojar, 2012; Han et al., 2013). LITERATURA Baker, M. (1992): In Other Words: A Coursebook on translation. London New York: Routledge. Bojar, O. (2012): Čeština a strojový překlad, Studies in Computational and Theoretical Linguistics 11. Praha: ÚFAL MFF UK. Catford, J. C. (1965): A Linguistic Theory of Translation: An Essay In Applied Linguistics. London: Oxford University Press. Čermák, F. Rosen, A. (2012): The case of InterCorp, a multilingual parallel corpus, International Journal of Corpus Linguistics 13, 3, s Čermáková, A. (2009): Valence českých substantiv. Praha: Nakladatelství Lidové noviny. Dąmbska-Prokop, U. (2000): Mała encyklopedia przekładoznawstwa, Częstochowa: EDUCATOR. Daneš, F. Hlavsa, Z. (1987): Větné vzorce v češtině. Praha: Academia. Dębski, A. (1982): Semantyczna walencja czasownika w aspekcie konfrontatywnym, Biuletyn Polskiego Towarzystwa Językoznawczego, 39, s Např. sémantické třídy lze aproximovat pomocí dostatečně reprezentativního tezauru. Jedním z možných kandidátů je WordNet ( /00-097C A-4,
11 elżbieta kaczmarska alexandr rosen 167 Greń, Z. Rytel-Kuc, D. (1991): Wykorzystanie przekładów literackich w pracy nad dwujęzycznym słownikiem walencyjnym. In: H. Běličová et al. (eds.), Problemy teoretyczno-metodologiczne badań konfrontatywnych języków słowiańskich. Warszawa: Instytut Słowianoznawstwa PAN, s Han, A. L. Lu, Y. Wong, D. F. Chao, L. S. He, L. Junwen, X.(2013): Quality estimation for machine translation using the joint method of evaluation criteria and statistical modeling. In: Proceedings of the Eighth Workshop on Statistical Machine Translation, ACL, s Havránek, B. Bělič, J. Helcl, M. Jedlička, A. (eds.) (2011): Slovník spisovného jazyka českého. Praha: ÚJČ. Hejwowski, K. (2009): Kognitywnokomunikacyjna teoria przekładu, Warszawa: PWN. Jirásek, K. (2011): Využití paralelního korpusu InterCorp k získávání ekvivalentů pro chorvatsko-český slovník. In F. Čermák (ed.), Korpusová lingvistika Praha 2011: 1 InterCorp. Praha: NLN, s Jelínek, T. (2014): Improvements to dependency parsing using automatic simplification of data. In: N. Calzolari et al. (eds.), Proceedings of LREC 14. Reykjavík: ELRA, s Kaczmarska, E. (2001): Badanie struktury walencyjnej czeskich i polskich predykatów posiadających pozycję Experiencera. Studia z Filologii Polskiej i Słowiańskiej 37. Warszawa: Slawistyczny Ośrodek Wydawniczy, s Kaczmarska, E. (2015a): W poszukiwaniu znaczenia czasowników wyraz ających stany psychiczne. Prace Filologiczne. (V tisku). Kaczmarska, E. (2015b): Czeskie czasowniki oznaczające stany psychiczne sposoby ustalania polskich ekwiwalentów na podstawie korpusu równoległego InterCorp. ZBLIZ ENIA, , Konin, Polsko. Kaczmarska, E. Rosen, A. (2013): Między znaczeniem leksykalnym a walencją próba opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej 48. Warszawa: Slawistyczny Ośrodek Wydawniczy, s Kaczmarska, E. Rosen, A. (2014a): Praktyczny przewodnik po korpusie równoległym InterCorp. In: M. Hebal- Jezierska (ed.), Praktyczny przewodnik po korpusach języków słowiańskich. Warszawa: Wydział Polonistyki Uniwersytetu Warszawskiego, s Kaczmarska, E. Rosen, A. (2014b): Czego nie moz na wyrazić w języku polskim, czyli o leksykalnych w nim brakach. Polonica, 34, Instytut Języka Polskiego PAN, s Kaczmarska, E. Rosen, A. Hana, J. Hladká, B. (2015): Syntactico-semantic analysis of arguments as a method for establishing equivalents of Czech and Polish verbs expressing mental states. Prace Filologiczne (v tisku). Koller, W. (1995): The concept of equivalence and the object of translation studies, Target 7, 2. Levin, B. (1993): English Verb Classes and Alternations: A Preliminary Investigation. Chicago: University of Chicago Press. Lewandowska-Tomaszczyk, B. (1984): Conceptual Analysis, Linguistic Meaning, and Verbal Interaction. Łódź: Wydawnictwo Uniwersytetu Łódzkiego. Lewandowska-Tomaszczyk, B. (2013): Komunikacja i konstruowanie znaczeń w przekładzie. ZBLIZ ENIA, , Konin, Polsko. Lopatková, M. Kettnerová, V. Bejček, E. Skwarska, K. Žabokrtský, Z. (2014): VALLEX Valency Lexicon of Czech Verbs. Praha: ÚFAL MFF UK. legacy/vallex/2.6.3/doc/home.html. Lotko, E. (1992): Zrádná slova v polštině a češtině (Lexikologický pohled a slovník). Olomouc: Votobia. Nida, E. A. (1995): Dynamic Equivalence In Translating. In An Encyclopaedia of Translation. Chinese-English / English-Chinese, Hong Kong: Chinese University of Hong Kong. Nivre, J. Hall, J. (2005): MaltParser: A language-independent system for
12 168 ČASOPIS PRO MODERNÍ FILOLOGII 97, 2015, Č. 2 data- driven dependency parsing. In Proceedings of the Fourth Workshop on Treebanks and Linguistic Theories, s Och, F. J. Ney, H. (2003): A systematic comparison of various statistical alignment models. Computational Linguistics, 29, 1, s Oliva, K. (1994). Polsko-cěský slovník. Praha: Academia. Piasecki, M. (2007): Polish tagger TaKIPI: Rule based construction and optimisation. Task Quarterly 11, 1 2, s Rosen, A. Kaczmarska, E. Škodová, S. (2014): Zdrobnienia jako element kultury i pułapka glottodydaktyczna czeskie i polskie deminutiva w ujęciu konfrontatywnym na podstawie badań korpusowych. In: E. Kaczmarska A. Zieniewicz (eds.), Glottodydaktyka wobec Wielokulturowości. Warszawa, s Rytel, D. (1989): Wybrane problemy opisu walencyjnego języka. Studia z Filologii Polskiej i Słowiańskiej 26. Warszawa: Slawistyczny Ośrodek Wydawniczy, s Rytel-Kuc, D. (ed.). (1991): Walencja czasownika a problemy leksykografii dwujęzycznej. Wrocław: Zakład Narodowy im. Ossolińskich. Sharoff, S. Rapp, R. Zweigenbaum, P. Fung, P. (eds.) (2013): Building and Using Comparable Corpora. Springer. Siatkowski, J., Basaj, M. (2002): Słownik czesko-polski. Warszawa: Wiedza Powszechna. Skoumalová, H. (2008): Extracting dictionaries from parallel corpora. In Proceedings of The Third Baltic Conference on Human Language Technologies. Kaunas: Vytautas Magnus University, s Urbańczyk-Adach, N. (2011): Wariantywność walencji czeskiego czasownika. Warszawa: Slawistyczny Ośrodek Wydawniczy. Votrubec, J. (2006): Morphological tagging based on averaged perceptron. In WDS 06 Proceedings of Contributed Papers, Praha: Matfyzpress, Univerzita Karlova v Praze, s Elżbieta Kaczmarska Instytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawski Krakowskie Przedmieście 26/28, Warszawa e.h.kaczmarska@uw.edu.pl Alexandr Rosen Ústav teoretické a komputační lingvistiky, FFUK Celetná 13, Praha 1 alexandr.rosen@ff.cuni.cz
Jak najít optimální překlad polysémních sloves porovnání metod automatické analýzy paralelních textů
Jak najít optimální překlad polysémních sloves porovnání metod automatické analýzy paralelních textů Elżbieta Kaczmarska, Alexandr Rosen a Jirka Hana Instytut Slawistyki Zachodniej i Południowej, Wydział
Syntakticko sémantický popis vybraných skupin sloves vyjadřujících emoce a pocity. Elżbieta Kaczmarska
Syntakticko sémantický popis vybraných skupin sloves vyjadřujících emoce a pocity Syntakticko sémantický popis sloves valenční popis Valencí rozumíme počet argumentů řízených slovesným predikátem spolu
Institut západní a jižní slavistiky. Elżbieta Kaczmarska 2
Elżbieta Kaczmarska Institut západní a jižní slavistiky Elżbieta Kaczmarska 2 * *jazyk nemateřský *druhý jazyk - v zahraničí a na území ČR (skupiny českých vystěhovalců i jejich potomků - především ve
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
1. Přehled cizojazyčných a vícejazyčných korpusů
1. Přehled cizojazyčných a vícejazyčných korpusů typy korpusů a možnosti jejich využití 2. Nová verze korpusu InterCorp (prosinec 2014) nové jazyky a texty lemmatizace a značkování 3. Webové korpusy srovnatelné
Elżbieta Kaczmarska, PhD. Institute of Western and Southern Slavic Studies University of Warsaw
Elżbieta Kaczmarska, PhD Institute of Western and Southern Slavic Studies University of Warsaw In Search of the Meaning of Verbs Expressing Mental States Analysis of Czech Verbs and Their Polish Equivalents
Institut západní a jižní slavistiky. Elżbieta Kaczmarska 2
Elżbieta Kaczmarska Institut západní a jižní slavistiky Elżbieta Kaczmarska 2 Problémy s porozuměním a překladem do polštiny? * příbuzné jazyky podobné neznamená stejné + negativní transfer při učení (rušivý
Elżbieta Kaczmarska. Institute of Western and Southern Slavic Studies University of Warsaw
Elżbieta Kaczmarska Institute of Western and Southern Slavic Studies University of Warsaw Corpus-based Analysis of Czech Units Expressing Mental States and Their Polish Equivalents Motivation Czech Polish
Korpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
Faktorované překladové modely. Základní informace
Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace
KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!
KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze O (Ú)ČNK Ústav Českého národního korpusu, založen v roce
Česká předložka s/se a její anglické ekvivalenty
Česká předložka s/se a její anglické ekvivalenty Renata Novotná Ústav Českého národního korpusu Workshop Intercorp 6. září 2013 Předložka s a její frekvence Frekvenční slovník češtiny (2004) - třetí nejfrekventovanější
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen
Paralelní korpusy 0/2 Z, zimní semestr 2006/2007 Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofická fakulta Univerzity Karlovy v Praze Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 1
2. Korpusový portál a volně dostupné nástroje
1. Něco málo o jazykových korpusech co to je a jak se to používá 2. Korpusový portál a volně dostupné nástroje webový portál www.korpus.cz 3. Korpusový nástroj SyD porovnání dvou a více slov z hlediska
VÝZKUM SLOVESNÉ VALENCE VE SLOVANSKÝCH ZEMÍCH VČERA A DNES BADANIE WALENCJI CZASOWNIKA W KRAJACH SŁOWIAŃSKICH WCZORAJ I DZIŚ
Slovanský ústav Akademie vĕd České republiky, v. v. i. Instytut Slawistyki Zachodniej i Południowej Pracownia Pragmatyki i Semantyki Językoznawczej IPS Uniwersytetu Warszawskiego III. mezinárodní vědecká
ve strojovém překladu
Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém
Strukturovaný životopis
Strukturovaný životopis Mgr. Magdaléna Rysová Osobní informace E-mail: magdalena.rysova@post.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Vzdělání od 2012 FF UK v Praze: doktorské studium, obor Český
VÝZKUM SLOVESNÉ VALENCE VE SLOVANSKÝCH ZEMÍCH VČERA A DNES BADANIE WALENCJI CZASOWNIKA W KRAJACH SŁOWIAŃSKICH WCZORAJ I DZIŚ
Slovanský ústav Akademie vĕd České republiky, v. v. i. Instytut Slawistyki Zachodniej i Południowej Pracownia Pragmatyki i Semantyki Językoznawczej IPS Uniwersytetu Warszawskiego III. mezinárodní vědecká
Způsob vnímání vybraných pojmů školního a sociálního prostředí studenty Univerzity v Rzeszowe v roce 2010 a 2011
Marie CHRÁSKOVÁ Pedagogická Fakulta Univerzity Palackého v Olomouci, Česká Republika Způsob vnímání vybraných pojmů školního a sociálního prostředí studenty Univerzity v Rzeszowe v roce 2010 a 2011 Úvod
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
Využití shlukové analýzy při vytváření typologie studentů
Miroslav CHRÁSKA, Milan KLEMENT Univerzita Palackého v Olomouci, Česká republika Využití shlukové analýzy při vytváření typologie studentů 1. Cíl výzkumu Cílem výzkumu bylo rozdělit české a polské vysokoškolské
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105
Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
Tabulka 1 Rizikové online zážitky v závislosti na místě přístupu k internetu N M SD Min Max. Přístup ve vlastním pokoji 10804 1,61 1,61 0,00 5,00
Seminární úkol č. 4 Autoři: Klára Čapková (406803), Markéta Peschková (414906) Zdroj dat: EU Kids Online Survey Popis dat Analyzovaná data pocházejí z výzkumu online chování dětí z 25 evropských zemí.
Průzkum paralelních dvojjazyčných textů v otázce určení autorství staročeského překladu
Průzkum paralelních dvojjazyčných textů v otázce určení autorství staročeského překladu Markéta Pytlíková Lingvistika Praha 2014 11. 4. 2014 ÚJČ AV ČR pytlikova@ujc.cas.cz Atribuce překladového textu Atribuce
Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod
Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období 1. 2. 2016 31. 1. 2019 1. Úvod Ústav teoretické a komputační lingvistiky FF UK (dále ÚTKL) byl založen roku 1990 prof. PhDr.
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.
Korpusová lingvistika a počítačová Od 60. let 20. st. Raná korpusová lingvistika (konec 19. st 50. léta 20. st., Early corpus linguistics) strukturalistická tradice, americký deskriptivismus, metody založené
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů
Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová
Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová KOGNITIVNÍ LINGVISTIKA Jazyk a jeho užívání jsou jednou z kognitivních aktivit lidské mysli. Kognitivní lingvisté předpokládají, že jazyk
Publications 1 Barbora Vidová Hladká March 2017
Publications 1 Barbora Vidová Hladká March 2017 Books (2) 1. Panevová Jarmila, Bojar Ondřej, Cinková Silvie, Hajič Jan, Hladká Barbora, Kuboň Vladislav, Mírovský Jiří, Peterek Nino, Spoustová Johanka,
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE Veronika Kolářová, Jana Klímová, Anna Vernerová Ústav formální a aplikované lingvistiky MFF UK Praha 22. 4. 2016 Slovanská lexikografie počátkem 21.
Automatické párování uzlů českých a anglických tektogramatických stromů
Automatické párování uzlů českých a anglických tektogramatických stromů David Mareček pondělní seminář 13. 10. 2008 Osnova rozdíly mezi párováním na morfologické a na tektogramatické rovině ruční párování
Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace
PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.
PLIN041 Vývoj počítačové lingvistiky Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno Mgr. Dana Hlaváčková, Ph.D. Korpusová lingvistika v ČR lexikografické počátky 1988 Iniciativní skupina pro
Pseudodeminutiva v češtině
Pseudodeminutiva v češtině Jana Bílková Pedagogická fakulta, Univerzita Hradec Králové jana.bilkova@uhk.cz Pseudodiminutives in Czech ABSTRACT: The system of Czech diminutive nouns, with its complex formal-semantic
WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY
WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY Datum konání: 11. dubna 2014 Místo konání: Filozofická fakulta Masarykovy univerzity (učebna G13) Název přednášky: Přednášející: Webové korpusy Aranea
Shoda u českých složených základních číslovek obsahujících číslovku jeden
Shoda u českých složených základních číslovek obsahujících číslovku jeden Ivona Turinská, FF UK Žďárek 2009 Sto jeden žák, či sto jedna žáků? Shoda mezi složeným číslovkovým výrazem (SČV) a počítaným předmětem
SMÍŠENÉ MODY SBĚRU DAT - DRUHY CHYB A MOŽNOSTI SROVNATELNOSTI
SMÍŠENÉ MODY SBĚRU DAT - DRUHY CHYB A MOŽNOSTI SROVNATELNOSTI Mgr. Jarmila Pilecká ISS FSV UK OBSAH PREZENTACE Důvody použití mixed-mode řešení Které chyby řeší a které může naopak způsobovat? Jak efektivně
TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH Autoreferát dizertační práce Jindra Drábková Liberec 2005 Tvorba jazykového
PDT-Vallex: trochu jiný valenční slovník
PDT-Vallex: trochu jiný valenční slovník Zdeňka Urešová uresova@ufal.mff.cuni.cz Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky Malostranské nám. 25 11800 Praha 1 Česká republika Abstract
Chytal tlouště na višni
Chytal tlouště na višni Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Jedna noc s informatikou a matematikou MFF
NĚKTERÉ ASPEKTY STANOVENÍ ABIOSESTONU ODHADEM POKRYVNOSTI ZORNÉHO POLE
Příspěvek byl publikovaný ve sborníku z konference Vodárenská biologie 214 (5. 6.2.214, Praha) na stránkách 15 2. NĚKTERÉ SPEKTY STNOVENÍ IOSESTONU ODHDEM POKRYVNOSTI ZORNÉHO POLE Petr Pumann Státní zdravotní
Databáze překladových ekvivalentů Treq 1
ČASOPIS PRO MODERNÍ FILOLOGII 99, 2017, Č. 2, S. 245 260 Databáze překladových ekvivalentů Treq 1 Michal Škrabal (Praha) Martin Vavřín (Praha) THE TRANSLATION EQUIVALENTS DATABASE (TREQ) The aim of the
IA161 Pokročilé techniky zpracování přirozeného jazyka
IA161 Pokročilé techniky zpracování přirozeného jazyka Strojový překlad Vít Baisa Překlad angličtina čeština Moses is an implementation of the statistical (or data-driven) approach to machine translation
Změny postojů k vybraným pojmům u studentů oboru Edukacja techniczno-informatyczna na Univerzitě v Rzeszowe
Marie CHRÁSKOVÁ Univerzita Palackého v Olomouci, Česka Republika Změny postojů k vybraným pojmům u studentů oboru Edukacja techniczno-informatyczna na Univerzitě v Rzeszowe Úvod Zkoumání postojů bylo a
Jak na paralelní texty s programem ParaConc
Jak na paralelní texty s programem ParaConc verze 0.3 Alexandr Rosen alexandr.rosen@ff.cuni.cz 14. dubna 2005 1 ParaConc základní údaje program pro vytváření a prohlížení paralelních korpusů pro systém
obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy
LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy obecná lingvistika Den otevřených dveří 11. ledna 2014 15 hodin, nám. Jana Palacha 2, míst. 104 LING oddělení lingvistiky Filozofická
Univerzita Pardubice Fakulta filozofická. Franz Kafka: Pojetí systému v Proměně. Lukáš Vavrečka
Univerzita Pardubice Fakulta filozofická Franz Kafka: Pojetí systému v Proměně Lukáš Vavrečka Bakalářská práce 2009 University of Pardubice Faculty of Arts and Philosophy Franz Kafka: The Conception of
VÝUKOVÝ MATERIÁL. Bratislavská 2166, 407 47 Varnsdorf, IČO: 18383874 www.vosassvdf.cz, tel. +420412372632 Číslo projektu
VÝUKOVÝ MATERIÁL Identifikační údaje školy Vyšší odborná škola a Střední škola, Varnsdorf, příspěvková organizace Bratislavská 2166, 407 47 Varnsdorf, IČO: 18383874 www.vosassvdf.cz, tel. +420412372632
Práce s lexikálním materiálem a možnosti exemplifikace v lexikální databázi LEXIKON 21 1
e.opavská-štěpánková/33-40/8 6.2.2009 21:59 Stránka 33 Práce s lexikálním materiálem a možnosti exemplifikace v lexikální databázi LEXIKON 21 1 Ústav pro jazyk český AV ČR, v. v. i. Working with Lexical
Hodnocení projevu a zvládání emocí. Ukázka Nová TEIQue
Hodnocení projevu a zvládání emocí Grafy a skóre 6.1.2015 Soukromé a důvěrné Normy: Czech Republic 2011 Tato zpráva obsahuje informace i návod k tomu, abyste si uvědomili a pochopili svou vlastní emoční
ČASOPIS PRO MODERNÍ FILOLOGII 99, 2017, Č. 1, S
ČASOPIS PRO MODERNÍ FILOLOGII 99, 2017, Č. 1, S. 131 146 MARKÉTA LOPATKOVÁ A KOL.: VALENČNÍ SLOVNÍK ČESKÝCH SLOVES VALLEX Druhé vydání, přepracované a rozšířené Praha: Karolinum, 2016, 698 stran ISBN 978-80-246-3542-2
v období 2007-2013 Structural Funds and Their Impact on Rural Development in the Czech Republic in the Period 2007-2013
Strukturální fondy a jejich vliv na rozvoj venkova v ČR v období 2007-2013 Structural Funds and Their Impact on Rural Development in the Czech Republic in the Period 2007-2013 Jiří Kolman Summary In this
Depfix: Jak dělat strojový překlad lépe než Google Translate
Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.
Anglicko český technický slovník Lingea Ing. Miroslav HEROLD, CSc. Na Jeronýmovi 2010 byl ke shlédnutí nový slovníkový titul pod rozhraním LEXICON 5 Anglicko-český technický slovník. Toto rozhraní bylo
Výzkum slovesné valence ve slovanských zemích. Karolína Skwarska Elżbieta Kaczmarska (eds.)
Výzkum slovesné valence ve slovanských zemích Karolína Skwarska Elżbieta Kaczmarska (eds.) Slovanský ústav AV ČR, v. v. i. Praha 2016 3 Vědečtí recenzenti: prof. Dr. Danuta Rytel-Schwarz Natalia Kotsyba,
Specializovaný korpus BANÁT a jeho využití
Specializovaný korpus BANÁT a jeho využití Klára Dvořáková, Zuzana Komrsková a Karolína Vyskočilová klara.dvorakova@ujc.cas.cz zuzana.komrskova@ff.cuni.cz karolina.vyskocilova@ff.cuni.cz Korpusová lingvistika
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy Veronika Kolářová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 1
NLP & strojové učení
NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování
POLITICKÝ PROCES NA LOKÁLNÍ A REGIONÁLNÍ ÚROVNI
POLITICKÝ PROCES NA LOKÁLNÍ A REGIONÁLNÍ ÚROVNI Úskalí zkoumání lokálního a regionálního politického života mechanické přenášení poznatků z národní úrovně na úroveň regionální a lokální předčasné zobecňování
V tomto článku popíšeme zajímavou úlohu (inspirovanou reálnou situací),
L i t e r a t u r a [1] Calábek, P. Švrček, J.: Úvod do řešení funkcionálních rovnic. MFI, roč. 10 (2000/01), č. 3. [2] Engel, A.: Problem-Solving Strategies. Springer-Verlag, New York, Inc., 1998. [3]
8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice
9. Lineární diferenciální rovnice 2. řádu Cíle Diferenciální rovnice, v nichž hledaná funkce vystupuje ve druhé či vyšší derivaci, nazýváme diferenciálními rovnicemi druhého a vyššího řádu. Analogicky
Workshop o paralelním korpusu InterCorp
Workshop o paralelním korpusu InterCorp Praha, 6.9.2013 Olga Richterová, ÚČNK Český národní korpus (LM2011023; 2012-2016) Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro
Present simple (přítomný čas prostý)
Present simple (přítomný čas prostý) MASARYKOVA ZÁKLADNÍ ŠKOLA A MATEŘSKÁ ŠKOLA VELKÁ BYSTŘICE projekt č. CZ.1.07/1.4.00/21.1920 Název projektu: Učení pro život Číslo DUMu: VY_32_INOVACE_11_12 Tématický
E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO
Seznam výukových materiálů III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblast: Předmět: Vytvořil: Současný český jazyk upevňování a procvičování obtížných gramatických jevů Český jazyk
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.
Příklad z učebnice matematiky pro základní školu:
Příklad z učebnice matematiky pro základní školu: Součet trojnásobku neznámého čísla zvětšeného o dva a dvojnásobku neznámého čísla zmenšeného o pět se rovná čtyřnásobku neznámého čísla zvětšeného o jedna.
Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.
Metadata, sémantika a sémantický web Ing. Vilém Sklenák, CSc. Inforum 2004, Praha, 27. 5. 2004 2/21 There are things we know that we know. There are known unknowns that is to say, there are things that
Strojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
Čtenáři a čtení v České republice a český knižní trh
Čtenáři a čtení v České republice a český knižní trh Jiří Trávníček Ústav pro českou literaturu AV ČR, v. v. i. Targi książki, Krakov 24. X. 2014 travnicek@ucl.cas.cz Osnova 1. Náš výzkum (zázemí a schéma)
LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU
LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU VÁCLAVA KETTNEROVÁ KAROLINUM Lexikálně-sémantické konverze ve valenčním slovníku Mgr. Václava Kettnerová, Ph.D. Recenzovali: prof. PhDr. Petr Karlík,
Spokojenost se životem
SEMINÁRNÍ PRÁCE Spokojenost se životem (sekundárních analýza dat sociologického výzkumu Naše společnost 2007 ) Předmět: Analýza kvantitativních revize Šafr dat I. Jiří (18/2/2012) Vypracoval: ANONYMIZOVÁNO
CZ.1.07/1.5.00/
Projekt: Příjemce: Digitální učební materiály ve škole, registrační číslo projektu CZ.1.07/1.5.00/34.0527 Střední zdravotnická škola a Vyšší odborná škola zdravotnická, Husova 3, 371 60 České Budějovice
Úvod z historie. Kompilátory. Kompilace / Kompilátor Compile / Compiler. Pojem kompilátoru. Úvod z historie
Úvod z historie RNDr. Miroslav Benedikovič John Louis von Neumann r. 1946 nová koncepce počítače (společná paměť pro kód programu a zpracovávaná data) vytvořila podmínky pro vznik softvéru na přípravu
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
Větné členy a jejich pozice. Význam anglického slovosledu
Průběhové budoucí časy Význam anglického slovosledu Říjen 2012 Základní skladebná dvojice 1 Věta je v angličtině tvořena minimálně dvěma členy. Základní skladebná dvojice 2 Věta je v angličtině tvořena
Genetické programování 3. část
1 Portál pre odborné publikovanie ISSN 1338-0087 Genetické programování 3. část Macháček Martin Elektrotechnika 08.04.2011 Jako ukázku použití GP uvedu symbolickou regresi. Regrese je statistická metoda
FÁZOVÉ PERIFRÁZE V PORTUGALŠTINĚ
FÁZOVÉ PERIFRÁZE V PORTUGALŠTINĚ Jaroslava Jindrová Univerzita Karlova v Praze, Filozofická fakulta Vedoucí práce: Prof. PhDr. Bohumil Zavadil, CSc Oponenti: Mgr.Iva Svobodová, PhD. Prof. PhDr. Jiří Černý,
Očekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)
Český jazyk a literatura - 6. ročník Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky) jazykovými příručkami Odliší spisovný a nespisovný jazykový projev Rozpozná nejdůležitější
Posouzení obtížnosti výkladového textu učebnic přírodopisu pro 7. ročník ZŠ pomocí dvou metod
Posouzení obtížnosti výkladového tetu učebnic přírodopisu pro 7. ročník ZŠ pomocí dvou metod Souhrn Libuše Hrabí Katedra přírodopisu a pěstitelství PdF UP Tento článek obsahuje poznatky o porovnání náročnosti
Možnosti využití korpusu InterCorp v česko-polské překladové lexikografii
ČASOPIS PRO MODERNÍ FILOLOGII 100, 2018, č. 2, S. 206 222 Možnosti využití korpusu InterCorp v česko-polské překladové lexikografii Andrzej Charciarek (Katowice, Polsko) APPLICATIONS OF THE INTERCORP PARALLEL
Úloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
Syntactic annotation of a second-language learner corpus
Syntactic annotation of a second-language Jirka Hana & Barbora Hladká Charles University Prague ICBLT 2018 CzeSL Corpus of L2 Czech ICBLT 2018 2 CzeSL Czech as a Second Language Part of AKCES Acquisition
RNDr. Ondřej Bojar, Ph.D.
RNDr. Ondřej Bojar, Ph.D. Narozen: 7. března 1979 v Praze E-mail, web: bojar@ufal.mff.cuni.cz; http://www.cuni.cz/ obo Dosažené vzdělání: 2003-2008 doktorské studium MFF UK, obor Matematická lingvistika
Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky
Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Adam Liška Čištění paralelních dat pro strojový překlad Ústav formální a aplikované lingvistiky Vedoucí bakalářské práce: RNDr.
2010 FUNKČNÍ VZOREK. Obrázek 1 Budič vibrací s napěťovým zesilovačem
Název funkčního vzorku v originále Electrodynamic vibration exciter Název funkčního vzorku česky (anglicky) Elektrodynamický budič vibrací Autoři Ing. Aleš Prokop Doc. Ing. Pavel Novotný, Ph.D. Id. číslo
Vysoká škola zemědělská Praha, Provozně ekonomická fakulta, Katedra zemědělské ekonomiky, 165 21 Praha 6 - Suchdol tel. 02_3382297, fax.
HODNOCENÍ INVESTIČNÍCH PROJEKTů PRO TRVALE UDRŽITELNÝ ROZVOJ Helena Sůvová Vysoká škola zemědělská Praha, Provozně ekonomická fakulta, Katedra zemědělské ekonomiky, 165 21 Praha 6 - Suchdol tel. 02_3382297,
Juxtapozice z do v Arabštině
Juxtapozice z do v Arabštině Kvantitativní přístup Jiří Milička Ústav srovnávací jazykovědy Jak do začalo? První data pro výzkum byla shromážděna automaticky. Ale když se ukázalo, že téma je zajímavé,
Tvarová optimalizace v prostředí ANSYS Workbench
Tvarová optimalizace v prostředí ANSYS Workbench Jan Szweda, Zdenek Poruba VŠB-Technická univerzita Ostrava, Fakulta strojní, katedra mechaniky Ostrava, Czech Republic Anotace Prezentace je soustředěna
Analýza výsledků testu čtenářské gramotnosti v PRO23 2010/11
Analýza výsledků testu čtenářské gramotnosti v PRO23 2010/11 Zpracoval: www.scio.cz, s.r.o. (15. 2. 2012) Datové podklady: výsledky a dotazníky z PRO23, test čtenářské gramotnosti, www.scio.cz, s.r.o.
Romové a soužití s nimi očima české veřejnosti duben 2014
ov14014 TISKOVÁ ZPRÁVA Centrum pro výzkum veřejného mínění Sociologický ústav AV ČR, v.v.i. Jilská 1, Praha 1 Tel.: 286 840 9 E-mail: milan.tucek@soc.cas.cz Romové a soužití s nimi očima české veřejnosti
PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
PSANÍ Jazyk Úroveň Autor Kód materiálu Anglický jazyk 9. třída Mgr. Martin Zicháček aj9-kap-zic-psa-15 Z á k l a d o v ý t e x t : Flat to rent BBW Real Estate Agency offers for rent three bedroom flat
Univerzita Karlova v Praze
Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE 2011 Jonáš Bujok Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Jonáš Bujok Nástroj pro převod PDF na
zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností
Nová cesta k modernímu jednojazyčnému výkladovému slovníku současné češtiny: koncepční poznámky ke struktuře dat v novém DWS Pavla Kochová, Zdeňka Opavská 1. Úvod V oddělení současné lexikologie a lexikografie
ZÁKLADNÍ METODOLOGICKÁ PRAVIDLA PŘI ZPRACOVÁNÍ ODBORNÉHO TEXTU. Martina Cirbusová (z prezentace doc. Škopa)
ZÁKLADNÍ METODOLOGICKÁ PRAVIDLA PŘI ZPRACOVÁNÍ ODBORNÉHO TEXTU Martina Cirbusová (z prezentace doc. Škopa) OSNOVA Metodologie vs. Metoda vs. Metodika Základní postup práce Základní vědecké metody METODOLOGIE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady