10. Jak nám poãítaãe rozumûjí Rozhovor s Petrem Strossou



Podobné dokumenty
JAK JE TO SE KŘTEM V DUCHU?

12. NepfietrÏit odpoãinek v t dnu

11/ Pfiíroda a krajina

SGH-S300 ProhlíÏeã WAP Návod k pouïití

âernobílá laserová tiskárna, která umoïàuje barevn tisk

OBSAH. Principy. Úvod Definice událostí po datu úãetní závûrky Úãel

K ÍÎOVKA, KTERÁ NIKDY NEKONâÍ NÁVOD

DS-75 JE TO TAK SNADNÉ. kombinace produktivity v estrannosti a pohodlí

Fakulta sociálních vûd UK

âisté OBLEâENÍ NEUDùLÁ âlovùka LEP ÍM, MÒÎE ALE PODTRHNOUT JEHO KVALITU. Jste hotel,

Manuál k uïití ochranné známky âeské televize a pfiedpisy související

P ÍRUâKA PRO PROVÁDùNÍ AUDITU

AGENT OSS: PORUČÍK MIKE POWELL

Kapitola 1 DAR MIMOŘÁDNÉ CITLIVOSTI A KŘEHKÝ SILÁK CO TO JE?

ve které se seznámíme s Medvídkem Pú a vãelami; a vypravování zaãíná

III. Kontroly dodrïování reïimu práce neschopn ch zamûstnancû. 14. Co je reïim doãasnû práce neschopného poji tûnce

Ponofite se s námi pro perly do Va eho oddûlení barev! Kompletní sortiment. pro obchodníky

S 002~ Sirius Zpracování formuláfiû a vytûïování dat

ale ke skuteãnému uïití nebo spotfiebû dochází v tuzemsku, a pak se za místo plnûní povaïuje tuzemsko.

Je to, jako byste mûli t m kontrolorû kvality prohlíïejících a schvalujících kaïd Vá dokument ihned po jeho naskenování.

Znaãka, barvy a písmo

TS-101 PROGRAMOVATELN REGULÁTOR TEPLOTY S T DENNÍM PROGRAMEM NÁVOD K OBSLUZE DODÁVÁ:

1. lékafiská fakulta UK

Grafick manuál znaãky. Odkaz na zfiizovatele

Matematicko-fyzikální fakulta UK

Co je dobré vûdût pfii zateplování podkroví

Komunikace s kočkou. TÉMA MùSÍCE. Po stopách dr. Doolittla. 4 Na e KOâKY 11/05

MontáÏní a provozní návod - Kódov spínaã CTV 1 / CTV 3

Znackova_okna :08 Stránka 1. Znaãková okna z profilû REHAU pro úspû né stavebníky

INFORMACE. Nov stavební zákon a zmûny zákona o státní památkové péãi 1. díl

United Technologies Corporation. Obchodní dary od dodavatelû

AURATON 2020 TX BEZDRÁTOV PROGRAMOVATELN REGULÁTOR TEPLOTY S T DENNÍM PROGRAMEM A S TEPLOTNÍM ROZSAHEM 0,25 C 10:11 23 C NÁVOD K OBSLUZE

21 Nacson - zlom :07 Stránka 1 21 DNÍ

přirozené! jednoduché! chytré!

11 TRH PÒDY, TRH KAPITÁLU

Ocel v architektufie JANISOL SYSTÉMY SYSTÉMY OCELOV CH PROFILÒ PRO DVE NÍ A OKENNÍ KONSTRUKCE S P ERU EN M TEPELN M MOSTEM

1.8 Budoucnost manaïersk ch kompetencí v âeské republice

8 MùSTO ÚJEZD U BRNA HISTORIE A SOUâASNOST. VáÏení ãtenáfii,

Vítejte v TESLE Jihlava

MINIMÁLNÍ PREVENTIVNÍ PROGRAM

PRÒMYSLOVÉ ZMùKâOVAâE VODY: V BùR

PRÁVNÍ ASPEKTY TVORBY NÁJEMNÍCH SMLUV

Kontrola pfiístupu. systém vyuïívající samostatn ch digitálních kódov ch zámkû

Stfiední odborné uãili tû Jifiice. Jifiice, Ruská cesta 404, Lysá nad Labem PLÁN DVPP. na kolní rok 2013/2014

REGIONÁLNÍ INFORMAâNÍ SYSTÉM KOMUNITNÍCH SLUÎEB MùSTA ÚSTÍ NAD LABEM

Platon Stop. Úãinná ochrana pro dfievûné a laminátové podlahy. n Úspora penûz n Vût í ochrana n Vût í komfort PODLAHY. Systém

Deset dopisû Olze VÁCLAV HAVEL

Více prostoru pro lep í financování.

6. DLOUHODOBÝ FINANČNÍ MAJETEK

OBSAH. Úvod Seznam zkratek uïit ch právních pfiedpisû Seznam jin ch zkratek Díl 1 Obecné principy poznávání dítûte...

BPT 093 RX BEZDRÁTOV PROGRAMOVATELN REGULÁTOR TEPLOTY S T DENNÍM PROGRAMEM NÁVOD K OBSLUZE

Rozhovor s Dagmar Havlovou o du i Lucerny

Ukázka knihy z internetového knihkupectví

DaÀové pfiiznání k DPH

Fronius IG. Centrální fotovoltaick stfiídaã POWERING YOUR FUTURE

O tom starém pécéãku by se také dalo hodnû vyprávût, ale k tomu se je tû dostaneme.

2/3.9 DaÀové dopady nové úpravy cestovních náhrad

9/2 Intraorální snímkování

právních pfiedpisû Libereckého kraje

Liberec. Trutnov Královehradeck. Náchod. Hradec Králové. Kolín. Pardubice. Bruntál Moravskoslezsk Karviná Klatovy. Îëár nad Sázavou.

Komunikace na pracovišti Kapitola 2

dodavatelé RD na klíã

OBSAH. Batikování, barvení látek 4. Ménû známé techniky barvení 21. Techniky malby na hedvábí 34

Optiscont Design vybraných míst kontaktu značky se zákazníkem

Îivot cizincû... Kap. 3: Vybrané statistiky cizinců 21 % 34 % 13 % 4 % 12 % 4 % 7 % 5 % 36 Graf 19: Poãty udûlen ch azylû v letech

Epson Stylus Pro 4800 / 7800 / 9800 Dokonal barevn i ãernobíl tisk

OBSAH 1 Úvod do ekonomie 2 Základní v chodiska a kategorie ekonomické vûdy 3 Principy hospodáfiské ãinnosti 4 Trh a trïní mechanizmus

OBSAH. Principy. Úvod Úãel Typy detailních testû

My pracujeme, vy žijte.

IV. PrÛvodce ledov mi dûji, událostmi a náhodami

právních pfiedpisû Libereckého kraje

ZAJÍMAVÉ. Psí horoskopy z astropraxe

12. K vymezení pojmu druïstevní byt po

právních pfiedpisû Libereckého kraje

Vûstník. právních pfiedpisû Pardubického kraje. âástka 8 Rozesláno dne 30. prosince 2006

pfiíloha C,D :13 Stránka 805 Strana 805 Vûstník právních pfiedpisû Královéhradeckého kraje âástka 7/2004

elero VarioTel Plus-10 Nr Návod k obsluze Tento návod k obsluze si uschovejte!

cena 99 Kč/189 Sk tuningový měsíčník číslo 20 prosinec 2006, ročník 2 RX-7 VW Brouk Golf III VW Polo

Ukázka knihy z internetového knihkupectví

HISTORICKÁ MùSTA âeské REPUBLIKY K

Skupina PRE 1897> >2007. Jsme energie tohoto města

NÁVOD K OBSLUZE. merit - 34

Ticho je nejkrásnûj í hudba. Ochrana proti hluku s okny TROCAL.

V KOPISNÁ ARCHEOLOGICKÁ MAPA 1:2 000 ÚZEMÍ âeské KONCESE V ABÚSÍRU Jaromír Procházka, Vladimír BrÛna

AURATON 30 AURATON TH-3

YTONG - Vy í komfort staveb

SOLODOOR D V E E A Z Á R U B N ù

Anal za judikatury vztahující se k postavení profesionálních sportovcû v oblasti kolektivních sportû v âeské republice1

Úvod Zpráva o ovûfiení úãetní závûrky Dopis pro vedení úãetní jednotky Komunikace osobám povûfien m správou a fiízením

PROCESNÍ MANAGEMENT VE VE EJNÉ SPRÁVù

MINIMÁLNÍ PREVENTIVNÍ PROGRAM

Pracovní blok ã. II. 1. Tfii hlavní linie. 1.1 Îivotní linie linie hlavy linie srdce na levé ruce

KAPITOLA I Rozhodnutí

Motivační rozhovor s pacientem o změně rizikového chování

Dvefiní zavíraã DORMA TS 72

Radary v Praze Stále 132 tuningových stran, nyní za 79 Kč

Vstup dûtí mlad ích esti let narozen ch mezi lednem a ãervnem do první tfiídy základní koly

PORTRÉT PLEMENE. Tihle Britové jsou prostû okouzlující! 20 SVùT PSÒ 9/04

Evropské právo vefiejn ch podpor v daàové oblasti obrana obecnou logikou daàového systému

K rozdílûm v cenov ch hladinách mezi âr a Nûmeckem

Transkript:

V předcházejícím rozhovoru jsme se zabývali především otázkou, nakolik je genetický zápis obdobou přirozeného lidského jazyka, který nelze pouze mechanicky ( počítačově ) interpretovat, ale jemuž je třeba rozumět. V následující kapitole problém otočíme a podíváme se na něj z úplně jiné strany. Nemohou lidskému jazyku nějak rozumět i počítače? Kromě souvisejících filozofických otázek si podrobněji ukážeme způsoby fungování jazyka a konkrétní metody a systémy, které se s ním snaží automatizovaně pracovat. Zaměříme se hlavně na techniky počítačového překladu. Vztah mezi biologickým a počítačovým světem se ovšem jako červená nit potáhne i dalšími kapitolami této knihy. 10. Jak nám poãítaãe rozumûjí Rozhovor s Petrem Strossou V dobách poãátkû poãítaãû zhruba pfied padesáti lety se v eobecnû pfiedpokládalo, Ïe systémy schopné rozumût lidskému jazyku jsou doslova na obzoru. Pfiekladatelé mûli brzy pfiijít o práci. Babylonská rybka (univerzální pfiekladaã z románu Douglase Adamse StopafiÛv prûvodce po Galaxii) v ak dosud neexistuje, pfiekladové slovníky i dal í obdobné nástroje mají prozatím jen omezené pouïití. Jak je moïné, Ïe se lidsk jazyk poãítaãovému zpracování tak vytrvale vzpírá? Jako reakce se objevil opaãn pfiístup, kter lidsk jazyk chápal jako nûco spí e esoterického, co se poãítaãové logice zcela vzpírá. Automatické zpracování lidského jazyka se v ak stalo mezitím v mnoha oborech realitou. Do lo k tomu pfiitom pomûrnû nenápadnû, spí e trpûlivou prácí lingvistû a programátorû neï nûjak m radikálním objevem. Na na e otázky o úspû- ích a mezích poãítaãového zpracování textu odpovídá RNDr. Petr Strossa, CSc., specialista na poãítaãovou lingvistiku z katedry informaãního a znalostního inïen rství Fakulty informatiky a statistiky praïské V E. 123

Jak vlastnû fungují dne ní systémy pro automatick pfieklad? Pole poãítaãového pfiekladu je pomûrnû iroké a vejde se do nûho leccos. Optimistické prognózy z poloviny minulého století o tom, Ïe aplikace v dohledné dobû zvládnou v e, vãetnû pfiekladû beletrie, se nicménû nepotvrdily. Poãítaã na poli pfiekladatelsk ch slu- Ïeb dnes slouïí spí e jako pomocn nástroj, kter urychluje práci ãlovûka a vzhledem k tomu, Ïe ãas kvalitního pfiekladatele je drah, pfiedstavuje pfiinejmen ím nezanedbateln ekonomick pfiínos. KaÏdopádnû bychom v ak spí e neï o poãítaãovém pfiekladu mûli dnes v mnoha pfiípadech hovofiit o poãítaãem podporovaném pfiekladu. Stejnû tak je vût inou vhodnûj í vyh bat se slovu automatick a radûji hovofiit o poloautomatick ch nástrojích, popfiípadû nástrojích dílãí automatizace, neboè programy stále vyïadují lidskou asistenci toho ãi onoho druhu. Jak pokrok udûlaly pfiekladové systémy od svého vzniku? Nejjednodu í a historicky také nejstar í jsou systémy oznaãované vût inou jako tzv. první generace, pfiekládající víceménû metodou slovo za slovo. V sledkem je jen zfiídkakdy plnû srozumiteln text, proãeï se dnes vût inou v této souvislosti pouïívá termín indikativní pfieklad. Ani takov v sledek v ak nelze povaïovat za zbyteãn. Jistû se dá vyuïít alespoà pro základní orientaci a na jeho základû lze napfiíklad rozhodnout, zda textu vûnovat dal í pozornost, respektive ho nechat pfieloïit kvalifikovan m znalcem jazyka. Úpravou metody pfiekladu slovo za slovo je metoda, kterou bychom mohli oznaãit fráze za frázi. Je zajímavé, Ïe tuto metodu lze dost úspû nû aplikovat v ude tam, kde mají pfiekládané dokumenty pevnû danou, víceménû formalizovanou strukturu a souãasnû pouïívají limitovanou slovní zásobu. Odbornû se tu hovofií o tzv. omezen ch, popfiípadû fiízen ch jazycích. MÛÏe jít napfiíklad o obchodní dopisy nebo o meteorologické ãi burzovní zpravodajství. Co následovalo po systémech první generace? Hlavní trend bychom asi obecnû mohli vyjádfiit heslem více gramatiky. Lidé samozfiejmû dávno vûdí, Ïe kdyï se napfiíklad v ãeské vûtû 124

pouïije nûjaké slovo ve ãtvrtém pádû, má vûta trochu jin v znam, neï kdyï je v ní totéï slovo v prvním pádû a nûjaké jiné ve ãtvrtém. (Vûty Pavel vidûl Petra a Pavla vidûl Petr fiíkají kaïdá nûco jiného, pfiestoïe se skládají ze stejn ch slov, a dokonce ve stejném pofiadí.) Musíme si ov em uvûdomit, Ïe ani gramatická anal za slovního tvaru vytrïeného z kontextu nemá obvykle mnoho nadûjí na úspûch. Jak se vlastnû dá pfiijít na to, Ïe Petra je ãtvrt pád jména Petr a ne druh pád téhoï jména nebo první pád pfiíslu ného Ïenského jména? Navíc, i kdyby se na to nûjak pfii lo, pfiínos samotného rozpoznání pádu pro pfieklad obecnû není pfiíli velk, protoïe cílov jazyk mûïe mít jin systém pádû (tfieba nûmãina má proti ãesk m sedmi ãtyfii), eventuálnû nemusí mít vûbec Ïádné. Je tedy rozhodnû tfieba navázat na morfologickou anal zu je tû anal zou syntaktickou analyzovat stavbu vûty jako celku, identifikovat v ní jednotlivá slova jako podmût, pfiísudek a pfiedmût apod. Teprve na tomto základû má smysl pustit se do vlastního pfiekládání jednotliv ch slov (a jejich syntaktické funkce pak musí b t vyjádfieny adekvátním zpûsobem v cílovém jazyce, napfiíklad anglická vûta musí zaãínat podmûtem), ale i tak se mohou vyskytnout rûzné dal í problémy. Jak je to s pfieloïitelností vlastních slov? Nejednoznaãnost pfiekladov ch ekvivalentû pfiedstavuje samozfiejmû dal í problém. Napfiíklad ke slovu poskytovat nám dobr ãesko-anglick slovník nabídne tyto moïné pfieklady: give, provide, lend, render, grant, allow, afford, accord, extend, accomodate, furnish, supply, yield... Je jasné, Ïe v echny tyto pfieklady se nehodí do kaïdého daného kontextu, ov em má-li b t posouzení kontextu vûbec kombinatoricky zvládnutelné, je tfieba si opût uvûdomit, Ïe ve skuteãnosti je rozhodující jedin syntaktick vztah (vazba) na eho slovesa ve vûtû, a to jeho pfiedmût ( co je poskytováno ). Tak napfiíklad poskytovat zdroje se asi pfieloïí trochu jinak neï poskytovat sluïby, zato na tom, kdo, komu a kdy nûco poskytuje, nejspí pfii pfiekladu slovesa poskytovat pfiíli nezáleïí. (Pfiedmût pfiitom nemusí b t zdaleka vïdy slovo následující ihned za slovesem. Vûta mûïe tfieba znít: Poskytujeme na im pfiátelûm v hodné pûjãky. ) 125

Zvlá tû závaïn mûïe b t problém pfiekladu slov (neboli lexikálního transferu), pfiekládá-li se mezi jazyky v raznû rozdíln ch kultur. Zde totiï ãasto nejde zdaleka jen o kontext vymezující pou- Ïitelnost urãit ch pfiekladov ch ekvivalentû, ale i o to, Ïe cílov jazyk tfieba vûbec nemá pojem bezprostfiednû odpovídající pouïitému pojmu vstupního jazyka. Buì zde takov pojem neexistuje vûbec, nebo zde existují pouze pojmy s v raznû odli nou rozli ovací schopností. Budeme-li chtít napfiíklad pfiekládat z ãe tiny do ãín tiny vûtu, ve které se vyskytuje slovo str c, narazíme velmi pravdûpodobnû na fakt, Ïe v celém dostupném kontextu není Ïádn m zpûsobem uvedeno, zda jde o otcova star ího bratra, otcova mlad ího bratra, matãina bratra, manïela otcovy sestry ãi manïela matãiny sestry, proto- Ïe âe i vût inou nepovaïují za potfiebné tuto informaci uvádût. JenÏe ãín tina má pro kaïdou z vyjmenovan ch kategorií zvlá tní slovo. Na tûstí se dnes pfiece jen vût inou snaïíme o pfieklad mezi jazyky s dost velk m spoleãn m kulturním zázemím (v rámci euroamerické civilizace), kde se tento problém nemusí projevovat tak silnû. Nakolik se dá fiíct, Ïe pfiekladové systémy rozumûjí textu, se kter m pracují? V pfiekladov ch nástrojích druhé generace se zpravidla úloha porozumûní omezuje na uï zmínûnou syntaktickou anal zu, tj. rozbor urãit ch druhû vazeb mezi jednotliv mi vûtn mi ãleny, popfiípadû hierarchické stavby celé vûty. Je to v podstatû nûco podobného, co jsme dûlali na základní kole pfii takzvaném vûtném rozboru. A dal í perspektivy? Nûktefií odborníci soudí, Ïe budoucnost mûïe patfiit snad jedinû pfiekladov m systémûm zaloïen m na obecn ch metodách umûlé inteligence, jejichï báze znalostí budou obsahovat jak znalosti o jazycích, mezi kter mi se pfiekládá (to znamená jejich slovníky, gramatiku a sémantiku), tak znalosti o svûtû, jehoï se t kají pfiekládané texty. Jedinû tak lze skuteãnû modelovat proces porozumûní, kter zfiejmû bûïnû probíhá v lidské hlavû. 126

Kdybyste mûl uvést nûkolik pfiíkladû, jak se lidsk jazyk vzpírá poãítaãûm, co byste vybral? Jedním z nejvût ích problémû je obecnû homonymie. Vyfie it v echny pfiípady homonymie v textu je nejsloïitûj ím úkolem kaïdého typu automatického zpracování textu. Homonymní mohou b t rûznû velké úseky textu (rûznû sloïité v razy), bereme-li je samy o sobû; vyfie it homonymii pak zpravidla znamená celkovû porozumût vût ímu úseku textu, kter obklopuje ná homonymní v raz. PROBLÉM ZÁVORKOVÁNÍ Pfiirozen jazyk se dá pfiirovnat k algebfie, ve které napfiíklad v raz A/B/C mûïe znamenat stejnû dobfie (A/B)/C i A/(B/C), ale co opravdu znamená, závisí mimo jiné na hodnotách A, B a C. MoÏná by se dalo v analogii pokraãovat zhruba v tom smyslu, Ïe aktuální v znam v razu A/B/C závisí i na dûvodu, proã se vlastnû tento v raz poãítá. Pro ilustraci dva konkrétní pfiíklady. V razu regulace chlazení termostatem kaïd technik rozumí jednoznaãnû, ale proã? ProtoÏe ví, Ïe termostat je nástroj regulace, ale nikoli nástroj, kter by sám chladil. V na í algebraické analogii tedy jde o v raz (regulace/chlazení)/termostatem, nikoli regulace/(chlazení/termostatem). Naproti tomu v raz pozorování úniku koufie oknem jednoznaãnû uzávorkovat nelze, dokud nezjistíme nûco víc o situaci, kterou tento v raz popisuje: uniká nûkde koufi oknem, nebo to nûkdo oknem pozoruje? Ukázkovou hfiíãkou z této kategorie jsou pak zmatené vûty, ve kter ch vûbec nedokáïeme od sebe rozpoznat jednotlivé vûtné ãleny a slovní druhy. âeská vûta Ïenu holí stroj mûïe mít celkem tfii naprosto odli né v znamy podle toho, které ze tfií slov je tu mínûno jako sloveso. Je tû ãastûj í jsou podobné bizarnosti v angliãtinû, která na rozdíl od ãe tiny prakticky neoh bá slova. Klasick m pfiíkladem je vûta Time flies like an arrow, která mûïe znamenat âasové mouchy mají rády íp, âasuj mouchy jako íp i âas letí jako íp. Správnû je samozfiejmû poslední moïnost. K tomu v ak mûïeme dospût pouze za pfiedpokladu, Ïe víme, Ïe: ani mouchy ani ípy nejsou slovesy a nemají ani Ïádné ãasovací zafiízení, takïe ãasovat je nedává smysl; mezi mnoha druhy much, pokud je známo, nerozli ujeme Ïádnou odrûdu much ãasov ch. Jak si má s podobn mi hádankami poradit neboh automatick systém? 127

Homonymie má samozfiejmû rûzné formy, z nichï kaïdá pûsobí jin typ problémû mûïe existovat na úrovni slov nebo cel ch vût. Napfiíklad ve vûtû Autobus pfiedjíïdí tramvaj mûïe b t jak slovo autobus, tak slovo tramvaj interpretováno jako podstatné jméno v prvním nebo ãtvrtém pádû. V tomto pfiípadû je homonymní celá vûta. Kdybychom v ak pfievedli pfiísudkové sloveso do minulého ãasu a vytvofiili tak vûtu Autobus pfiedjíïdûl tramvaj, situace se ponûkud zmûní: obû podstatná jména ( autobus i tramvaj ) jsou sice sama o sobû stále stejnû homonymní, pokud jde o pád, ale syntaktické pravidlo shody podmûtu s pfiísudkem tentokrát (spolu s faktem, Ïe kaïdé z podstatn ch jmen je jiného rodu) pomûïe urãit, Ïe autobus je podmût, a tedy nutnû v prvním pádû, zatímco tramvaj jako pfiedmût je nutnû v pádû ãtvrtém. Striktnû lingvisticky bychom mûli rozli ovat mezi skuteãnou homonymií (tj. situací, kdy dva rûznû utvofiené v razy vypadají stejnû) a jevem, kter se obvykle naz vá polysémie neboli mnohoznaãnost jednoho v razu: slovo tfiída oznaãuje fiadu rûzn ch vûcí tfieba kolní tfiídu nebo kategorii v teorii mnoïin ale stále jde o jedno slovo jako jednotku jazykového systému. V poãítaãovém pfiekladu pûsobí ov em homonymie i polysémie potíïe velmi podobného druhu. Zkusme teì pfiejít k dal ímu typu nástrojû pro automatické zpracování textu, k systémûm s pfiekladovou pamûtí. Je to slepá uliãka, nebo naopak zpûsob, jak mnoho problémû ikovnû obejít? Na první pohled se mûïe zdát, Ïe pfiekladová pamûè je metoda velmi primitivní; jde o obyãejnou hrubou sílu vyuïívající rychle rostoucí pamûè a v kon souãasn ch poãítaãû. Podíváme-li se ale na vûc z trochu jiného úhlu, mûïeme si naopak poloïit otázku, zda tato nová cesta automatizace pfiekladu, totiï prostû hledání analogií s nûãím, co uï máme v pamûti, není vlastnû vûrnûj ím obrazem pfiirozeného lidského pfiístupu k pfiekládání neï v echny modely zalo- Ïené na nûjak ch exaktních gramatikách. Sdûlením (alespoà v matefiském jazyce) obvykle nerozumíme na základû jejich anal zy, ale proto, Ïe jsme se uï s podobn m uïitím slov nûkdy setkali. 128

Rozvoj systémû s pfiekladovou pamûtí umoïnila ãi pfiímo vyvolala situace, kdy mnohé firmy a instituce uï mají ve sv ch archivech velké objemy star ích textû i s jejich pfieklady do rûzn ch jin ch jazykû, a pfiitom nové texty, jejichï pfieklady jsou zadávány, ãasto neobsahují zase tak velké mnoïství opravdu nov ch informací. Pfiedstavme si napfiíklad pfiíruãky a prospekty k urãit m v robkûm nebo sluïbám. V robky se modernizují, coï vyvolává nutnost neustálé aktualizace prûvodních ti tûn ch materiálû, nicménû podstatné funkce, které je tfieba popsat, zûstávají stejné a tedy i velká ãást textû zûstává nezmûnûná, nebo alespoà témûfi nezmûnûná. Zde mají systémy s pfiekladovou pamûtí své nezastupitelné místo, je ale patrné i jejich omezení. Tfieba pfii pfiekladech z angliãtiny do ãe tiny, tedy jazyka se sloïit m oh báním slov, vyïaduje v sledek tûchto systémû je tû lidskou korekturu. S poãítaãov mi pfieklady je to tedy stále je tû ponûkud o idné. Co dal í lingvistické schopnosti souãasn ch programû? Asi to nekonãí kontrolorem pravopisu v textovém editoru... Zmínil bych tfieba kontrolu stylistickou. Jakkoli se styl (sloh) obvykle povaïuje za umûní nadfiazené prosté schopnosti pouïívat gramatiku, ukazuje se, Ïe v automatické korektufie stylistick ch chyb se kupodivu dá snáze dosáhnout vy í míry úspû nosti neï v korektufie gramatické. Nûkdy to dokonce vypadá tak, Ïe právû korektura slohu je skuteãnou silnou stránkou nástroje, kter je z komerãních dûvodû naz ván gramatick korektor. Je pravda, Ïe automatizovaná stylistická korektura obvykle nezahrnuje takové prvky, jako je napfiíklad správná vûcná návaznost jednotliv ch vût, nemluvû tfieba o celkové v stavbû textu s logicky odli iteln m úvodem, jádrem sdûlení a závûrem. Pfiesto lze automaticky testovat velké mnoïství jevû, které mohou b t oznaãeny jako stylistické chyby a jejichï odstranûní je pro kvalitu, ãitelnost a ãtivost textu velmi uïiteãné. Hodnû mûïe pomoci uï hodnocení jednotliv ch slov (popfiípadû nûkter ch jejich tvarû) vzhledem k zamûfiení textu. Automatick korektor napfiíklad mûïe upozornit uïivatele, jenï není 129

úplnû zbûhl v jazyce, kter m pí e obchodní dopis, Ïe v raz jako dát si je spí e hovorov a do obchodního dopisu nevhodn. K tomu staãí, aby v echna slova ve slovníku byla zafiazena do urãit ch stylov ch tfiíd a aby uïivatel mûl moïnost vybrat si z nabídky systému, Ïe to, co pí e, má b t obchodní dopis (ãímï nastaví míru vhodnosti jednotliv ch stylov ch tfiíd slov). Pokud by korektor navíc zahrnoval vhodnû koncipovan slovník (tezaurus), mohl by i navrhnout náhradu napfiíklad spojení stanovit termín místo dát si termín. Pomûrnû velmi snadná a pro fiadu tematick ch oblastí textû uïiteãná je rovnûï automatická detekce urãit ch, ãasto pouïívan ch víceslovn ch obratû, kter m by bylo lep í se vyhnout, proto- Ïe jsou: vágní (v podstatû niãím nepfiispívají k jádru sdûlení jako tfieba více ãi ménû ); zbyteãnû rozvláãné (lze je úspû nû nahradit jedním slovem napfiíklad vzít v úvahu, v pfiípadû, Ïe ); redundantní (fiíkají dvakrát totéï jako tfieba spojení v pfiípadû, pokud ). Vzhledem k tomu, Ïe detekce takov ch v razû se patrnû musí opírat o tabulku (slovníãek), kde jsou tyto v razy vyjmenovány a klasifikovány, zdá se b t vcelku snadné doplnit i funkci nabídky jejich interaktivní opravy: u vágního v razu mûïe systém nabíd- SEATTLE ZA LETU K MARSU DokáÏete jednoznaãnû porozumût vûtû Kosmická loì fotografovala Seattle za letu k Marsu? Pouze z logiky vûci tu íme, Ïe tím, co letûlo k Marsu, nebyl nejspí Seattle mûsta obvykle nikam nelétají. K jednoznaãnému porozumûní textu je tedy tfieba pfiinejmen ím jisté znalosti reálií, jen z gramatiky jazyka to prostû není moïné. Jak by mûl program poznat správnou strukturu vûty, pokud jí vûcnû nerozumí? Nabízí se alamounská odpovûì: program správnou strukturu poznat nemusí, ale mûl by zjistit, Ïe se zde skr vá pfiinejmen ím potenciální dvojsmysl. Pfii pfiekladu by pak mohl nalézt podobnû dvojsmyslnou formulaci v cílovém jazyce, napfiíklad anglicky: The spaceship photographed Seattle flying to Mars. Vtip spoãívá v tom, Ïe pokud je pro ãtenáfie originál ve skuteãnosti jednoznaãnû srozumiteln, pak bude totéï asi platit i pro takto vytvofien pfieklad. 130

nout jeho vypu tûní, u rozvláãného nebo redundantního v razu náhradu jedním slovem, které najde ve své tabulce. Dal í pomûrnû snadno kontrolovateln prohfie ek proti slohové správnosti pfiedstavuje pfiíli velká hloubka rozvíjení urãitou stále stejnou kategorií doplnûní. Podstata prohfie ku je, alespoà pfiedpokládám, vidût právû ve v e uvedené definici. Styl textu mohou nepfiímo pomoci vylep it jeho nejrûznûj í statistické anal zy. UÏivatel mûïe b t napfiíklad upozornûn, Ïe velmi ãasto pouïívá urãité slovo na zaãátku vûty. Oznaãovány mohou b t také jednotlivé z hlediska urãeného stylu nadprûmûrnû dlouhé vûty. âím se zab vají poãítaãoví lingvisté orientující se primárnû na ãe tinu? Jednou vûcí, kterou je asi tfieba se zab vat neustále, je upozoràování rûzn ch jin ch odborníkû (napfiíklad programátorû v ech moïn ch systémû), Ïe nûjaké problémy související s ãe tinou vûbec existují. Vezmûme si napfiíklad abecední fiazení rûzn ch seznamû. Je pravda, Ïe ãeská norma abecedního fiazení patfií suverénnû k nejsloïitûj ím na svûtû a nûkterá její pravidla by si moïná v souvislosti s potfiebami poãítaãového zpracování dat zaslouïila trochu provûtrat. Nicménû dokonalé nebo témûfi dokonalé poãítaãové implementace této normy uï existují. Pfiesto se stále je tû kaïdou chvíli pot káme s rûzn mi aplikaãními programy generujícími seznamy jako napfiíklad Cepl, Chodûra, Cileãek... Stejnû tak je zfiejmû stále pomûrnû dost málo zaïit fakt, Ïe oh bání slov, jak m disponuje ãe tina, pomûrnû znaãnû komplikuje aplikaci obecnû znám ch metod indexování a vyhledávání textû (vût inou pocházejících z anglicky mluvící ãásti svûta). Pfiedstavte si, Ïe chcete napfiíklad pomocí nûkterého z celé fiady ãesk ch plnotextov ch (fulltextov ch) vyhledávaãû nabízejících se na internetu najít nûco na téma sbûrn dvûr. MÛÏete b t úspû ní, mûïe ov em nastat situace, kdy Ïádné takové stránky nenajdete... Pokud je tomu tak prostû proto, Ïe Ïádné takové stránky neexistují, samo o sobû by to stále je tû nebyl dûvod k pfiem lení. MoÏná ale zato existují stránky jiné, ve kter ch se v nûjaké souvis- 131

losti zmiàují sbûrné dvory, komentuje se umístûní sbûrn ch dvorû, jen tak mimochodem se sdûluje, ãeho byste se mûli zbavovat ve sbûrném dvofie a podobnû. V echny takové texty by pro vás mohly b t zajímavé a koneckoncû právû od toho je tu plnotextov vyhledávaã, aby vám na el to, co hledáte, aè uï je to v textech dokumentû schováno kdekoliv. Jak fie it právû popsan problém? Klasick nástroj, nabízen snad kaïd m vyhledávacím strojem ãi databázov m systémem, operátor pravostranného roz ífiení vyhledávaného v razu, vám tady pfiíli nepomûïe: pokud chcete najít v echny tvary slova dvûr, museli byste zadat nûco jako dv* (kde hvûzdiãka vyjadfiuje operátor roz ífiení) a pak byste vyhledávali mimo jiné v echny texty, kde se zmiàují tfieba dvefie, dvojãata, dvojice nebo dva. Navíc v systémech indexujících skuteãnû obrovské objemy textû za tím úãelem, aby uïivatel nalézal pokud moïno nejrelevantnûj í dokumenty ke svému poïadavku, nejde obvykle jen o to, zda se v textu vyskytuje hledan v raz, ale také o to, jak v znamnû se tam vyskytuje coï mimo jiné zahrnuje otázku, kolikrát se tam vyskytuje. Odpovûdût opravdu smysluplnû na tento dotaz znamená dokázat zjistit, Ïe se v textu napfiíklad vyskytuje tfiikrát slovo dvûr, bez ohledu na to, v jakém pádû a ãísle, a ne jenom, Ïe je tam jedenkrát fietûzec znakû dvory, jedenkrát dvorû a jedenkrát dvofie. K tomu slouïí nástroj naz van lematizátor. BEZ HACKU A CAREK Víceznaãnost jazyka v raznû narûstá v 7bitové ãe tinû (tedy bez pouïití diakritiky). Vezmûte si napfiíklad vûtu zapsanou bez diakritick ch znamének: Je rada dolu, kde se tezi med. Intuitivnû mûïeme usoudit, Ïe tato vûta je jako celek (skoro) jednoznaãná. Pokud ji v ak budeme chtít analyzovat zdola nahoru, tj. poãínaje jednotliv mi slovy, zjistíme, Ïe za pfiedpokladu potenciálních diakritik nad libovoln mi písmeny je pût ze sedmi slov nejednoznaãn ch. Dnes uï tento problém není tak aktuální jako je tû pfied nûkolika lety, v elektronické po tû i na webov ch stránkách se stále ãastûji pouïívá ãe tina vãetnû diakritiky. 132

Na jaké hlavní problémy lze pfii tvorbû ãeského lematizátoru narazit a jak se fie í? To jsme v podstatû právû ukázali. Je sice pravda, Ïe napfiíklad ãeská podstatná jména se vût inou skloàují prostû pomocí pádov ch koncovek, takïe napfiíklad lematizovat slovo skloàované standardním zpûsobem podle vzoru hrad znamená pouze odstranit kteroukoli z moïn ch koncovek, ov em toto základní schéma má fiadu modifikací, kde jednotlivé koncovky rûznû zasahují do ãásti slova vlevo od nich, tzv. kmene slova. Napfiíklad slovní tvar kly je tfieba lematizovat na kel, a podobnû dvofie na dvûr. Hlavní problém pfiitom je, Ïe zde nelze dost dobfie formulovat obecnû platná pravidla. Dal í potíï spoãívá opût v homonymii, v tomto pfiípadû zejména rûzn ch kombinací kmenû a koncovek. Napfiíklad je-li nûkde v textu v raz v tancích, pak bez anal zy kontextu (ale jak irokého a pomocí jak ch nástrojû?!) nelze urãit, zda je tématem sdûlení tanec, anebo tank. Nástroje fie ení tûchto problémû mohou b t rûzné, v kaïdém pfiípadû v ak lze fiíci jedno: nejsou právû levné. Jeden z dílãích nástrojû obecnû hodn ch doporuãení je napfiíklad slovník v ech slov pouïiteln ch v daném jazyce se zakódovan mi pfiesn mi vzory oh bání. ProtoÏe se v ãe tinû navíc oh bají i skoro v echna cizí vlastní jména, je v praxi tfieba mimo jiné takov slovník neustále doplàovat, a pokud má b t skuteãnû relativnû univerzální, je nutno poãítat s rozsahem blíïícím se miliónu slov. Jak je vlastnû hlavní rozdíl mezi pfiirozen m a formálním jazykem? Mám-li odpovûdût pfiijatelnû struãnû, tak hlavní rozdíl spoãívá v tom, Ïe pfiirozen jazyk se vyvinul jak msi ne zcela uvûdomûl m procesem, bûhem kterého získal jisté vlastnosti, které fungují (tj. lidé uïívající ten jazyk je respektují, vût inou dokonce aniï na to myslí), ale které se teprve ex post jazykovûdci snaïí popsat v jeho gramatice. (CoÏ se jim dafií nûkdy lépe, nûkdy hûfie, a kdyï se nûjak jev vytrvale vzpírá jejich exaktnímu uchopení, máme v gramatikách pravidla, která ani v fieãi ani v písmu nikdo nerespektuje.) 133

Umûlé, formální jazyky mají naopak zpravidla pfiedem danou gramatiku, a protoïe jsou ãasto vym leny pfiímo s pfiedstavou poãítaãového zpracování (tfieba takov programovací jazyk by asi jinak ani nemûl vûbec smysl, Ïe), jejich autofii cílevûdomû smûfiují k tomu, aby jejich gramatika byla v jistém smyslu snadno poãítaãovû uchopitelná. Z toho vznikla slavná Chomského hierarchie formálních jazykû a odpovídajících typû automatû pouïiteln ch k jejich rozpoznávání (tj. rozhodnutí, zda nûjak fietûzec znakû patfií nebo nepatfií do daného jazyka), resp. k anal ze struktury daného fietûzce znakû (neboli jak byl ten fietûzec vytvofien) podle dané gramatiky. Samozfiejmû, jakmile byla tato teorie na svûtû, a moïná dokonce uï o nûco dfiíve, odborníky zajímala otázka, dajíli se do jejích kategorií nûjak rozumnû umístit i pfiirozené jazyky. Myslím, Ïe nemá pfiíli smysl, abychom tady podrobnûji rozebírali, co je to jazyk typu 0, bezkontextová gramatika nebo koneãn automat. DÛleÏité je spí to, co z toho vyplynulo pro praxi poãítaãového zpracování lidského jazyka. Je víceménû dokázáno (k tomu, co to znamená, se je tû vrátím), Ïe obvykl m zpûsobem strukturované vûty pfiirozen ch jazykû by mûlo b t moïné syntakticky analyzovat s ãasovou i pamûèovou nároãností nanejv kubicky závislou na délce vût. Jak mi konkrétními nástroji by to bylo nejlep í opravdu dûlat, to je téma na celé knihy, a snad na to ani neexistuje jednoznaãná odpovûì... PouÏil jsem v raz je víceménû dokázáno. To byla, pfiestoïe to tak moïná nevypadá, peãlivû uváïená volba vyjádfiení. Pfiirozené jazyky se totiï li í od formálních jazykû mimo jiné i tím, Ïe u nich ãasto nelze jednoznaãnû rozhodnout, co v echno do daného jazyka je tû patfií (co je v nûm je tû správnû) a co uï ne. Navíc se i ta místy zamlïená kritéria správnosti, která objektivnû fungují v urãitém okamïiku, neustále vyvíjejí i kdyï obvykle velmi pomalu. Mentální struktury, které ve skuteãnosti pomáhají lidem správnû mluvit a rozumût tomu, co fiíkají jiní, jsou evidentnû pomûrnû znaãnû pruïné ale to je asi tak v echno, co o nich dnes dokáïeme serióznû fiíct. 134

Co je co? DERIVACE obecnû odvození, odvozování. V poãítaãovém zpracování textû opak lematizace, tedy vygenerování v ech moïn ch tvarû (popfiípadû odvozenin) slova z jeho základní slovníkové podoby. Programov nástroj, kter tuto operaci provádí, se naz vá derivátor. HOMONYMIE jev spoãívající v tom, Ïe urãité dva rûzné slovní tvary, popfiípadû celé jazykové konstrukce, znûjí stejnû, takïe je nelze na první pohled/poslech od sebe odli it. Pfiíbuzn m jevem je tzv. polysémie. LEMATIZACE proces, kter m je slovnímu tvaru pfiifiazen jeho základní ( slovníkov ) tvar (napfiíklad 1. pád jednotného ãísla, pokud jde o podstatné jméno v ãe tinû). Nástroj, kter provádí pfiíslu nou operaci, se naz vá lematizátor. MORFOLOGIE domácím slovem tvarosloví. âást gramatiky zab vající se oh báním slov a jejich odvozováním z jin ch slov pomocí pfiedpon, pfiípon apod. V morfologii ãe - tiny se napfiíklad zkoumají zpûsoby, jak mi se podstatná a pfiídavná jména, zájmena a ãíslovky skloàují, pfiídavná jména a pfiíslovce stupàují a slovesa ãasují, a dále zpûsoby, jak mi se napfiíklad od podstatn ch jmen odvozují pfiídavná jména a slovesa (konkrétnû napfiíklad kola kolní kolit ). Úkolem morfologické anal zy textu pfii jeho automatickém zpracování je pfiifiadit kaïdému slovu textu jeho slovní druh, základní ( slovníkov ) tvar a informace o tom, v jakém tvaru se nachází v daném místû textu (tfiebas pád a ãíslo podstatného jména). OMEZEN ( ÍZEN ) JAZYK specifická podmnoïina jazyka s limitovanou slovní zásobou i arzenálem typû obratû. V pfiípadû omezeného jazyka jde o omezení objektivnû existující, pfiirozenû plynoucí z omezeného pouïití, jako napfiíklad v jazyce meteorologického zpravodajství nebo v jazyce elementární obchodní korespondence. O fiízeném jazyce mluvíme tehdy, kdyï urãitá omezení umûle stanovíme. Takov pfiístup se dnes ãasto uplatàuje napfiíklad pfii tvorbû uïivatelsk ch pfiíruãek k rûzn m v robkûm. P EKLADOVÁ PAMùË potfiebujeme-li pfieloïit nov dokument do urãitého jazyka a máme-li k dispozici do jisté míry podobn star í dokument i s jeho pfiekladem, vyznaãíme v novém dokumentu odli nosti od star ího a na odpovídajících místech upravíme star pfieklad. Pfiekladová pamûè není vlastnû nic víc neï schopnost zjistit, Ïe urãitá ãást textu byla uï jednou pfieloïena urãit m zpûsobem. SÉMANTIKA nauka o v znamu jazykov ch v razû, tedy slov, sousloví, frází i cel ch vût, potaïmo souvûtí. Na rozdíl od pragmatiky se sémantika zab vá pouze v znamem plynoucím ze samotného jazykového systému, tedy z v eobecn ch zvyklostí uïívání slov a gramatick ch konstrukcí, nikoli v znamem v rûzn ch konkrétních situacích. SYNTAX ãesky fieãeno skladba. âást gramatiky zab vající se zpûsoby, jak mi se z jednotliv ch slovních tvarû sestavují sousloví, fráze a vûty. Úkolem syntaktické anal zy textu je pfiifiadit vûtám (ãi souvûtím) jejich syntaktické struktury neboli oznaãit, jak jsou sestaveny ze skladebn ch dvojic (napfiíklad toto je podmût, toto pfiísudek a toto pfiívlastek k podmûtu ; v poãítaãové anal ze je ov em vût inou uïiteãné pracovat s je tû trochu jemnûj ími syntaktick mi kategoriemi, neï na jaké jsme zvyklí z na ich základních a stfiedních kol). 135

Při hledání odpovědi na otázku, jak naučit počítače rozumět lidskému jazyku, jsme (už poněkolikáté v této knize) zavadili o umělou inteligenci. V následujícím textu zaměříme svoji pozornost právě tímto směrem. 11. Cesty k umûlé inteligenci: stroje, testy a zombie Rozhovor s Jaroslavem Peregrinem Umûlá inteligence je na jednu stranu oborem zcela praktick m, kter zahrnuje tfieba robotiku nebo tvorbu expertních systémû. Nám v ak pûjde spí e o teoretiãtûj í aspekt vûci, respektive obecnou rovinu problému. Kdy mûïeme nûjak systém prohlásit za inteligentní? Soustfiedíme se na jeden z moïn ch pfiístupû k této otázce, kter pfiedstavuje TuringÛv test. Na téma se zkusíme podívat je tû z nûkolika dal ích úhlû, na scénu tedy vstoupí Turingovy stroje, Gödelovy vûty, paradox âínského pokoje ãi v emoïné druhy zombií. Na na e otázky odpovídá prof. RNDr. Jaroslav Peregrin, CSc., matematik, vûdeck pracovník Filozofického ústavu AV âr a vedoucí katedry logiky na praïské FF UK. Zab vá se pfiedev ím sémantikou, analytickou filozofií a filozofií logiky. Jak se díváte na TuringÛv test po zhruba padesáti letech od chvíle, kdy byl poprvé navrïen? Myslím, Ïe TuringÛv test rozhodnû ani dnes neztrácí na zajímavosti. Pozoruhodné je, Ïe na jedné stranû existuje celá fiada vûdcû a filozofû, ktefií ho povaïují za pfiíli mûkk pfiipsat poãítaãi my lení jen na základû toho, Ïe tímto testem projde, povaïují za absurdní. Na stranû druhé se na e poãítaãe, navzdory fantastickému technologickému pokroku, kter se bûhem padesáti let od Turingovy formulace tohoto problému odehrál, ani zdaleka nepfiibliïují nûãemu, co by toho bylo schopno. 136