Nedostatky bezkontextové gramatiky



Podobné dokumenty
ve strojovém překladu

Český jazyk - Jazyková výchova

Český jazyk a literatura - jazyková výchova

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Všestranný jazykový rozbor (VJR)

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Iveta Jedličková Týdenní dotace hodin: 8 hodin Ročník: pátý

Český jazyk v 5. ročníku

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

http: //pravopisne.cz/2014/11/test-podstatna-jmena-konkretni-a-abstraktni-11/

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

NLP & strojové učení

Příklad rozpracování minimální doporučené úrovně pro úpravu. očekávaných výstupů v rámci podpůrných opatření. do učebních osnov vyučovacího předmětu

Depfix: Jak dělat strojový překlad lépe než Google Translate

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Dataprojektor, jazykové příručky, pracovní listy

SPECIÁLNĚ PEDAGOGICKÁ PÉČE. Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Předmět speciálně pedagogické péče

SADA VY_32_INOVACE_CJ1

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

Český jazyk Název Ročník Autor

Vzdělávací obsah vyučovacího předmětu

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Přehled učiva. M Matematika. Čj Český jazyk. Prv Prvouka. 1. ročník. Anglický jazyk. l číselná řada 1-5, opakování tvarů v řadě Velká Dobrá

SYNTAX LS Úvod

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Poř. Číslo materiálu Předmět Ročník Téma hodiny Ověřený materiál Program 1 VY_32_INOVACE_04_09 Český jazyk 1. ČJ - ověření učiva za 1.

ZŠ ÚnO, Bratří Čapků 1332

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jarmila Kuchařová Týdenní dotace hodin: 9 hodin Ročník: druhý

Vzdělávací oblast: JAZYK A JAZYKOVÁ KOMUNIKACE Vyučovací předmět: Český jazyk a literatura Ročník: 6.

2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.

Dataprojektor, kodifikační příručky

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Žák se seznámí se základními pojmy morfologie tvarosloví, ohebnost, význam slov.

Předmět - Český jazyk a literatura Ročník: 5. RVP - ZV Výstup Učivo Průřezová témata

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Marta Klimecká Týdenní dotace hodin: 8 hodin Ročník: třetí

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Tematický plán Český jazyk 3. třída

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Český jazyk Ročník: 6. Průřezová témata Mezipředmětové vztahy.

ČESKÝ JAZYK 3. ROČNÍK

TEMATICKÝ,časový PLÁN vyučovací předmět : český jazyk ročník : 5. x Školní rok_2014/ 2015 vyučující: Lenka Šťovíčková. Zařazená průřezová témata OSV

ČESKÝ JAZYK 5. TŘÍDA

Školní vzdělávací program Základní školy a mateřské školy Sdružení

Sémantická interpretace

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jitka Vlčková Týdenní dotace hodin: 8 hodin Ročník: čtvrtý

Očekávané výstupy podle RVP ZV Učivo Přesahy a vazby. JAZYKOVÁ VÝCHOVA hláska, písmeno, slabika, slovo slovní přízvuk určování počtu slabik

Český jazyk a literatura

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Český jazyk ve 4. ročníku

Formální jazyky a gramatiky Teorie programovacích jazyků

Vzdělávací obsah vyučovacího předmětu

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: jazyková výchova - ročník: PRIMA

Klíčová slova: lexikologie, zájmena, číslovky, slovesa, synonyma, větné členy...

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Předmět: Český jazyk. čtení plynulé, tiché, hlasité, s porozuměním. nadpis, osnova vypravování, popis s dodržením časové posloupnosti

Faktorované překladové modely. Základní informace

Číslo hodiny. Označení materiálu

Předmět: Český jazyk a literatura

Český jazyk a literatura

PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.

Učební osnovy vyučovacího předmětu český jazyk a literatura se doplňují: 2. stupeň Ročník: šestý. Tematické okruhy průřezového tématu

Syntaxe gramatiky a syntaktické struktury

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Předmět: Český jazyk a literatura

Stonožka jak se z výsledků dozvědět co nejvíce

Přehled vzdělávacích materiálů

Gramatické rozbory češtiny Výklad a cvičení s řešeními. Robert Adam a kol. Recenzovaly: PhDr. Jasňa Pacovská, CSc. PhDr. Jana Bílková, Ph.D.

Přípravný kurz. z českého jazyka a literatury ke státní přijímací zkoušce na SŠ. SPGŠ Futurum. Mgr. Tomáš Veselý

Vzdělávací obsah vyučovacího předmětu

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Úvod do počítačové lingvistiky příprava na zkoušku

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Dataprojektor, jazykové příručky, pracovní listy

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Český jazyk a literatura

Projekt: Multimediální prezentace vzdělávacích oblastí školního vzdělávacího programu

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

ČESKÝ JAZYK - 2. ROČNÍK

Pravopis i-y. MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/

CZ.1.07/1.4.00/

Ročník: 4. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Vyučovací předmět : Český jazyk a literatura Ročník : 5.

SEZNAM VYTVOŘENÝCH digitálních učebních materiálů

Základní škola Náchod Plhov: ŠVP Klíče k životu. Téma, učivo Rozvíjené kompetence, očekávané výstupy Mezipředmětové vztahy Poznámky

učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby Umí komunikovat se spolužáky a s dospělými.

Cvičení z českého jazyka

ČESKÝ JAZYK A LITERATURA 4.ROČNÍK

Jazyková výchova Párové souhlásky. Opakování párových souhlásek na konci slov. Párové souhlásky uvnitř slov. Abeceda ČaJs. Slovo

Vzdělávací obsah vyučovacího předmětu

Český jazyk, 3. ročník 2014/2015

Nainstalovat Tred!

Pražský závislostní korpus jako elektronická cvičebnice češtiny

Jak dělat strojový překlad lépe než Google Translate

Transkript:

Nedostatky bezkontextové gramatiky Běžná gramatika nezachytí schodu podmětu s přísudkem. Lze řešit přidáním zvláštních neterminálů pro jednotné číslo, množné číslo... Velký nárust počtu neterminálů Rozšířené přechodové sítě ATN - Augmented Transition Networks Gramatika: S NP VP NP Det N VP V [NP] Síť: S 0 seek NP(Prohledání grafu NP) S 1 seek VP NP 0 cat Det(vyzvednutí členu ze slovníku) NP 1 cat N NP 2 V P 0 cat V V P 1 seek NP/jump V P 2 Systémy Q Použit mechanizmus grafového analyzátoru Slova tvoří ohodnocení hran. Postupně tvoříme hrany ohodnecené levou stranou pravidel z gramatiky. Hrany které byli překlenuty označíme tečkou. Opakujeme, dokud existují pravidla. Následuje fáze čištění: 1. Odstraníme všechny hrany odstraněné tečkou. 2. Ponecháme pouze hranu vedoucí z počátku do konce. 3. Odstraníme paralelní hrany se stejným ohodnocením. Analýzu celé věty můžeme rozložit do několika fází. Nevýhodou může být složitý zápis gramatiky Unifikační gramatiky speciální datový typ - Sestava rysů(feature Structure FS) 1

věta: podmět: přísudek: oznamovací slovní druh: N rod: F slovní druh: V rod: F Nezachycuje shodu, proto vylepšíme: věta: podmět: přísudek: oznamovací slovní druh: [ N shoda: 1 [ rod: ] F slovní druh: V shoda: 1 ] Unifikace: [ číslo: rod: F ] rod: pád: 7 = rod: F pád: 7 Lze kombinovat syntaxi i sémantiku Velmi průhledné a obecné(lze použít i na morfologické, syntaktické a semantické úrovni) Při špatném návrhu struktury můžeme skončit u slovesa s pádem nebo podobných věcí. Lze zlepšit zavedením typů. Automatické rozpoznávání cizích slov Vlastnosti českého jazyka foném = grafém, fonologické písmo. Vyskytuje se jen u jazyků, do nichž to bylo zavedeno reformou. Slovenština - rytmický zákon - po dlouhé slabice následje krátká Obojetné souhlásky jsou původem měkké Problémy - napěí, napnul, napjetí Vývoj 2

stahování - bojati se bát se, ale zůstalo zachováno bojím se depalatizace - odstraňování měkčidel diftongizace - ú ou změny hlásek - slovanské g h, ó uo ů Hledání cizích slov Jiná seskupení písmen, nerespektují pravidla češtiny Cizí grafémy x,q,w f (kromě foukat, doufat, zoufat ) g - původní g se změnilo v h ó - české přešlo v ů Až na vyjímky nezačínají slova na samohlásky Existuje pouze jedna dvouhláska - ou, zbytek jsou cizí slova, slováci mají dvouhlásek víc. Nosovky - rekomando, konstanta,... Při přejímání slov se redukují zdvojené souhlásky ph f Můžeme používat cizích předpon a přípon Tvrdá samohláska se po měkké souhlásce mění na měkkou samohlásku. Tvrdá souhláska se před měkkou samohláskou měnína měkkou souhlásku. é je tvrdé, ě je měkké, ale e je obojetné metateze likvid - ((E O)R) ((E O)L) (R(E A)) (L(E A)) ert ret, Elbe Labe Slova končící na ý jsou přídavná jména - vyjímky prý, úterý, čehý -ost - většinou podstatné jméno odvozené zpřídavného Nerozlučné skupiny souhlásek zd/st, žd/št Polosamohlásky - l/r 3

Automatický překlad Motivační příklad Budeme překládat větu: Kageru-to mugade hala jo deka medsene seno gejay! kageru sejít se, shromáždit se mugade hlava hala skupina jo jeden, jedna deka pět medse hodina seno velký jay muž Sejít se hlava skupina jeden pět hodina velký (?muž?) Chybí nám morfologie sloveso +to přípona -ne předpona ge budoucí čas časová předložka v místní určení Sejde se hlava skupina v jeden pět hodina velký u muž. Pravidla domorodého pravopisu V oznamovacích větách pevný pořádek slov Systém číslovek se chová jako římský Přídavná jména rozvíjejí následují větný člen Sejde se hlava skupina ve čtyři hodiny u velkého muže. Ustálená spojení mugade hala seno jay rada starších náčelník Rada starších se sejde ve čtyři hodiny u náčelníka. Další problém - hodiny se počítají od začátku dne. Potřebujeme tedy ještě vědět, jak to v patřičném prostředí chodí. Překlad může záviset na situaci. 4

Historie Zdrojový text analýza transfer(překlad, strukturální změny ve stromě,... ) generování cílový text Ideální by bylo vynechat transfer a provádět analýzu až do interliguy a odtud přímo generovat. 1946 - A. D. Booth - Slovníkový překlad slovo od slova. 1948 - R. M. Richens - pracuje s morfémy. 1950 E. Reifler - zavádí pre- a post- editing controled language - preediting - člověk píše jednoduše s ohledem na překlad 1952 - První konference o strojovém překladu na MIT L. E. Doster - pivotní jazyk - přirozený jazyk hrající roli interlinguy(ta byla formálním jazykem) 7. 1. 1954 - Georgetownský experiment 45 vět, 250 slov, 6 syntaktických zákonů... 1956 - První mezinárodní konference 1957 - N. Chomsky - Standart theory 1960 - Y. Bar Hillel - Vysoce kvalitní plně automatický překlad nemůže být nikdy dosažen Začína se hovořit o kategoriích FAHQMT HSMT MAHT HT plně automatický člověk pomáhá počítači počítač pomáhá člověku slovníky, translation memory(hledá podobné věty u nichž zn překládá člověk Současné trendy Statistické metody Měření kvality pomocí referenčního překladu Využívají již přeložené texty Nástroje podporující překlad Používají překladovou paměť Nabízejí překladateli to, jak to přeložil minule IBM Translation Manager, Deja Vu, TRADOS, SDLX 5

České systémy APAČ Překlad z angličtiny do češtiny Vytvořen ve shodném formalismu jako METEO Transdukční slovník - odborná slova přejatá z cizích jazyků(řevctina nebo latina) do ENG i CZ se překládají dobře(-ation -ace(industrialization industrializace, -ic -ický) Ruslan Překlad z češtiny do ruštiny Nebyl dokončen Transdukční slovník Q-systémy Záchranná pravidla pro případ problémů při analýze Systém Česílko Lokalizace velkých softwarový systémů Překlad z češtiny do slovenštiny a polštiny Použije se překladová paměť a český překlad se automaticky přeloží do slovenštiny a polštiny a vrátí se do paměti Rozdíly Češiny a Slovenštiny Shodná syntaxe (problém - bude-li ak bude) 3 slovníky - Český a Slovenský morfologický slovník a překladový slovník Většinou shodné pořadí ve ětě Naprosto odlišné tvarosloví Používá se tagger - určuje v jakém kontextu se slovo vyskytuje Možno využívat dalží slovníky PC Traslator Problémy Rozpoznání vecí, které se nepřekládají - Rozpoznávání pojmenovaných entit - Named-entity recognizer Zachovává anglický pořádek slov ve větě 6

Korpusová lingvistika Nejcennější je to, že korpus je označkovaný. Nejčastěji morfologická alanlýza, ale je dobré vědět i pády, rody, čísla a podobně. Důležitým rozhodnutím je, co do korpusu dávat. Značkování Základem je morfoligická analýza Další nejdůležitější je syntaxtické označkování(může pomoct při ověřování hypotéz ohledně jazykových pravidel) Historie Brownův korpus W. N. Francis a H. Kučera na Brown University 1 milion slov textů v americké angličtině vytištěných v roce 1961 15 druhů textu, 500 textů, každý asi kolem 2000 slov Snaha o získání reprezentativního vzorku(dnes spíše snaha o získání co největšího množství dat) Označkován pouze morfologicky PennTreebank Články z Wall Street Journal Syntakticky značkovaný korpus Závorkovací systém. Český Národní Korpus Spolupráce UK, MU a Ústavu pro jazyk Český Sbírá text od začátku devadesátých let - zpočátku hlavně novinové texty Morfologicky značkováno V součastnosti 500milionů slov, 100milionů slov dostupných veřejnosti Neznačkuje se ručně, používá se tagger - je potřeba výsledky pročistit Jsou vytvářena gramatická pravidla pomáhající odhalit chyby způsobené taggerem 7

Složení - 60% - novinové texty, 15% literatura(11% fikce), 25% technické a specializované texty Průměrně 4.29 značek na slovo Průměrná přestnost taggeru - 95% Pražský závislostní korpus Inspirován Penn Treebankem, ale mnohem složitější Snaha vybudovat značky na několika úrovních morfologickái syntaktická -analytická skoro povrchová - přiřazení analitické funkce definováno pomocí příkladů tvoří strom - uzly jsou funkční jednotky(slova, interpunkční znaménka,... ) každá věta má jeden technický uzel tectogrammatická(hloubková) Musí tam být vše podstatné(doplnění nevyjádřenéhopodmětu) Oproti předchozí úrovni něco ubyde(např. předložky určující pád a občas i něco přibyde(povinné aktanty(slova spadající do valenčního rámce slovesa) Už zbudování struktury a rohodnutí která slova se budou značkovat múže být záležet na úhlu pohledu Čtyři podstruktury 1. závislostní struktura, funktory 2. topic/focus - jádro a ohnisko věty a slovosled 3. koreference - co zastupují zájmena, kontext 4. zbytek Věty chápányv kontextu Během anotace byli vyvynuty i manuály pro anotaci(potřeba sjednotit anotátory Podmnožina Českáho národního korpusu(novinové texty) 8

Pražský Arabský závislostní slovník Na araby se dobře scháněj peníze ;-) Ukázka, že tectogrammatická rovina je dobrá pro všechny roviny, lépe se bude překládat na tectogrammatické úrovni, otázka je ovšem náročnost dostání se na tectogrammatickou úroveň PCEDT Anotován automaticky Česko-Anglický Data z Wall Street Journal Anotační pomůcky NetGraph TrEd 9