Testování konzistence a úplnosti valenčního slovníku českých sloves
|
|
- Alena Sedláčková
- před 7 lety
- Počet zobrazení:
Transkript
1 Testování konzistence a úplnosti valenčního slovníku českých sloves Markéta Lopatková and Zdeněk Žabokrtský Center for Computational Linguistics, MFF UK, Prague {lopatkova,zabokrtsky}@ckl.mff.cuni.cz Abstrakt Na moderní valenční slovník klademe řadu požadavků. Kromě strojové čitelnosti a dostatečné explicitnosti použitého popisu jde zejména o kvalitu dat ve slovníku obsažených. V článku přibližujeme nástroje navržené pro testování konzistence a úplnosti slovníku VALLEX a rozebíráme metody využívané pro zvýšení jeho kvality od odstraňování technických chyb přes porovnání s existujícími lexikografickými zdroji po testování vnitřní konzistence budovaného slovníku. Valence je jeden ze základních jazykových jevů, se kterým je třeba počítat při tvorbě většiny aplikací v oblasti počítačového zpracování přirozeného jazyka a jehož zkoumání je zajímavé i pro tradičního lingvistu. Valenční vlastnosti sloves (i některých ostatních slovních druhů) jsou ovšem velmi rozmanité. Nelze je odvodit obecnými pravidly, je třeba je popsat v podobě valenčního slovníku, který obsahuje popis valence jednoho slova po druhém. Z těchto důvodů vzniká v Centru komputační lingvistiky od roku 2001 elektronický valenční slovník českých sloves VALLEX, V tuto chvílu je v něm obsaženo zhruba 1400 sloves, probíhá jeho další rozšiřování. Budování slovníku je úzce spjato s vytvářením Pražského závislostního korpusu. 1 Na moderní valenční slovník je kladena řadu požadavků kromě strojové čitelnosti a dostatečné explicitnosti použitého popisu jde zejména o kvalitu dat ve slovníku obsažených. Slovník by neměl obsahovat chyby, a to ani z technického, ani z lingvistického úhlu pohledu. Mezi měřítka kvality slovníku řadíme konzistenci (důsledné zachycování stejných věcí stejně ) a úplnost (pokrytí všech významů, kterých dané sloveso může v jazyce nabývat). V sekci 1 přiblížíme základy použité podkladové teorie, valenční teorii Funkčního generativního popisu češtiny. Dále popíšeme strukturu hesel slovníku VAL- LEX (sekce 2). Jádro článku tvoří sekce 3 a 4, ve kterých přibližujeme navržené nástroje (sekce 3) a rozebíráme metody testování kvality slovníku (sekce 4) zejména porovnávání s existujícími zdroji (4.2), testování vnitřní konzistence slovníku (4.3) a ověřování na autentických větách (4.4). V sekci 5 uvedeme příklady aplikací, ve kterých se komplexní valenční slovník VALLEX s úspěchem využívá. Valenční slovník českých sloves VALLEX je vytvářen v Centru komputační lingvistiky při MFF UK, které vzniklo jako výzkumné centrum LN00A063 na základě programu MŠMT ČR. 1
2 1 Trocha teorie co je valence? Pokud aspirujeme na vytvoření konzistentního jazykového zdroje (language resource), který by byl využitelný pro aplikace v NLP i pro podrobná lingvistická zkoumání, potřebujeme důkladně rozpracovanou podkladovou teorii. VALLEX je budován na základě Funkčního generativního popisu (FGD, viz zejména [6]), což je závislostně orientovaný stratifikační systém, v jehož rámci je teorie valence studována od sedmdesátých let (viz zejména [5]). Co je to tedy valence? Podle autorů valenčního slovníku Slovesa pro praxi [7]: Valencí rozumíme v lingvistice schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury. Tato schopnost se týká primárně významové reprezentace, promítá se i do povrchové realizace věty. Informace o valenčním chování lexikální jednotky je uchovávána ve valenčních rámcích každému slovesu odpovídá soubor valenčních rámců, které ve FGD v zásadě odpovídají jednotlivým významů slovesa. Valenční rámec se skládá z vnitřních doplnění slovesa (aktantů, též participantů nebo argumentů), obligatorních i fakultativních, a dále z obligatorních volných doplnění (adverbiální doplnění, adjunkty). FGD rozlišuje pět vnitřních doplnění (aktor, patient, adresát, původ, výsledek; v aktivní větě aktor typicky odpovídá subjektu, patient přímému objektu, adresát nepřímému objektu) a řadu volných doplnění (odpovídají příslovečným určením, např. místa, času, způsobu, prostředku, podmínky viz tabulku 1). Vnitřní i volná doplnění mohou být buď obligatorní (povinně přítomny ve významové reprezentaci věty), nebo fakultativní. 2 Matka.ACT předělala loutku.pat z Kašpárka.ORIG na čerta.eff. Petr.ACT včera.twhen v novinách.loc četl o katastrofě.pat. Děti.ACT přišli pozdě.twhen. (=domů, sem.dir1) Venku.LOC prší. V Praze.LOC se sejdeme na Hlavním nádraží.loc u pokladen.loc. Kniha.ACT vyšla. Chlapec.ACT vyrostl v muže.pat. Klasifikaci FGD obohacujeme o tzv. typická doplnění, 3 z nichž některá mohou být obligatorní (přijít kam.dir3). 2 Následující příklady a tabulka 1 umožní sledovat článek i čtenáři, který není obeznámen s příslušnými lingvistickými teoriemi. Příklady částečně přebíráme z článků J. Panevové. Členy valenčních rámců sloves jsou označeny verzálkami; fakultativní volná doplnění, která nejsou součástí rámce, označujeme kurzívou (přesněji vyznačujeme jméno příslušné sémantické relace mezi slovesem a jeho valenčním doplněním). V tabulce jsou polotučným písmem vyznačeny větné členy, které odpovídají příslušnému funktoru. 3 Typická doplnění jsou fakultativní volné doplnění (tudíž nepatřící do klasického valenčního rámce), které dané sloveso zpravidla rozvíjí; navíc takové doplnění obvykle rozvíjí celou třídu sémanticky blízkých sloves. Např. slovesa pohybu jsou typicky rozvíjena volnými doplněními směru (jít jet/běžet/spěchat do kina.dir3/přes les.dir2/z domova.dir1).
3 Funktor Příklad ACT (aktor) Petr čte knihu. ADDR (adresát) Petr dal Marii knihu. PAT (patient) Viděl jsem Petra venku. ORIG (původ, origo) Upekla zjablekkoláč. EFF (výsledek, efekt) Zvolili Petra předsedou. DIFF (rozdíl) Jejich počet vzrostl o 200. OBST (překážka) Zakopl okámen. INTT (záměr) Jana šla nakoupit. ACMP (doprovod) Matka přišla s dítětem. AIM (účel) Jan došel do pekárny pro housky. BEN (prospěch) Udělala to pro své děti. CAUS (příčina) Lucie to udělala, protože to po ní chtěli. COMPL (doplněk) Petr pracuje jako učitel. DIR1 (směr-odkud) Petr se vracel ze školy pěšky. DIR2 (směr-kudy) Petr se loudal parkem. DIR3 (směr-kam) Petr spěchal do práce. DPHR (frazém) Bloudil křížem krážem lesem. EXT (míra) Petr měří 180 cm. HER (dědictví) Josífek se jmenoval po otci. LOC (místo) Narodil se v Itálii. MANN (způsob) Psal bezchybně. MEANS (prostředek) Petr přijel na kole. NORM (norma) Petr sestavil model podle instrukcí. RCMP (náhrada) Jana si koupila nové tričko za 200 Kč. REG (zřetel) Co se týká Petra, je vše v pořádku. RESL (účinek) Matka brání děti před vším nepohodlím. SUBS (zastoupení) Jana šla za svou sestru na zkoušku. TFHL (čas-na jak dlouho) Petr přerušil školu na jeden semestr. TFRWH (čas-ze kdy) Z dětství si nepamatuje nic. THL (čas-jak dlouho) Četl půl hodiny. TOWH (čas-na kdy) Odložil schůzku na příští týden. TSIN (čas-ze kdy) Od té doby jsem o něm neslyšel. TWHEN (čas-kdy) Jeho syn Jan se naridil loni. Tabulka 1. Funktory pro syntakticko-sémantickou anotaci. 2 Co valenční slovník obsahuje? Každé sloveso ve slovníku VALLEX je reprezentováno jako soubor valenčních rámců s doplňujícími syntakticko-sémantickými informacemi (vztaženými vždy k danému rámci); homonymní slovesa jsou popsána více soubory. Typicky jeden rámec odpovídá jednomu významu slovesa, příslušný význam je vždy určen glosou a příklady použití. Valenční rámec slovesa, který tvoří jádro zachycované informace, definujeme jako kombinaci prvků rámce (slovesných doplnění). U každého prvku rámce jsou zachyceny jeho tři vlastnosti: funktor, tj. jméno sémantické relace mezi slovesem a jeho příslušným doplněním (aktantem nebo volným doplněním);
4 morfematické vyjádření příslušného doplnění (číslo pádu, předložka+číslo pádu, infinitiv nebo podřadící spojka); typ doplnění, tj. zda jde o obligatorní (obl) nebo fakultativní (opt) valenční doplnění, příp. doplnění typické (typ). Cílem VALLEXu je poskytnout uživateli komplexní syntakticko-sémantickou informaci. Proto je jádro slovníku soubor valenčních rámců obohaceno o další informace využitelné v NLP (tyto údaje jsou vždy vztaženy k jednotlivým valenčním rámcům, nikoli k celému slovesu výjimku tvoří vidová charakteristika, která je vlastní celému slovesu): 4 reflexivita (výčet možných syntaktických funkcí zvratného zájmena se/si); reciprocita (možnost členu valenčního rámce vstupovat do symetrické relace s jiným členem); kontrola (u sloves s doplněním ve formě infinitivu; jde o vzájemný vztah mezi některým členem valenčního rámce a subjektem infinitivu); vid, příp. vidový protějšek (odkaz na příslušný valenční rámec); syntakticko-sémantická třída; pointer na odpovídající synset české větve sémantické databáze EuroWordNet. Ve valenčním slovníku VALLEX 1.0 je obsaženo přes 1400 českých sloves prvních zhruba 1000 sloves bylo vybráno podle frekvence v Českém národním korpuse (s výjimkou pomocného slovesa být, které vyžaduje zvláštní zpracování), k nim byly posléze doplněny jejich vidové protějšky (pokud ještě nebyly zpracovány). 3 Jaké nástroje lze využít při testování konzistence a úplnosti VALLEXu? Při budování slovníku je nutno klást maximální důraz na systematičnost a konzistenci v zachycování jednotlivých jazykových jevů, neboť konzistence zpracování patří k základním požadavkům kladeným na každý zdroj jazykových dat. Přestože při testování konzistence slovníku mají a budou mít nezastupitelnou úlohu vzájemné ruční kontroly anotátorů (každé heslo procházejí nejméně tři lidé v různých fázích zpracování), jejich úsilí mohou podstatným způsobem zefektivnit navržené nástroje umožňující vyhledávání údajů a třídění hesel podle jednotlivých atributů a jejich kombinací. Vyhledávací rozhraní pro WWW. Vyhledávací rozhraní pro WWW umožňuje vyhledávat rámce podle toho, zda daný rámec nebo jeho vybrané atributy obsahují určité podřetězce nebo odpovídají regulárnímu výrazu. (Např. najdi všechna slovesa kontroly, najdi všechna slovesa obsahující v rámci funktor EFF, najdi všechna slovesa s reflexivním zájmenem se, případně zobraz celý slovník (dotaz bez omezovacích podmínek).) 4 Údaje označené hvězdičkou jsou zpracovány zatím pouze částečně.
5 Dále je možné zjišťovat rozvržení hodnot jednotlivých atributů. (Např. zobraz všechny hodnoty atributu reciprocity a jejich rozložení, zobraz valenční rámce všech sloves kontroly ). K vyhledaným hodnotám lze vždy zobrazit informaci o příslušných valenčních rámcích, případně o jejich vybraných atributech. Toto rozhraní je grafické, umožňuje klást dotazy anotátorům, kteří nejsou zběhlí v programování. Vyhledávání v dostupných elektronických zdrojích. Tato aplikace umožňuje rychle nahlédnout, jak je dané sloveso zpracováno v existujících slovnících. K dispozici máme slovníky Slovesa pro praxi a Slovník spisovného jazyka českého, dále případné zpracování slovesa v české větvi EuroWordNetu a 100 náhodných výskytů v Českém národním korpusu. Vyhladávání v XML-reprezentaci dat. Datová reprezentace slovníku je založená na XML, lze tedy využít řady existujících nástrojů. Jde zejména o editor XSH (XML Editing Shell) 5 P. Pajase, který umožňuje klást dotazy přesahující možnosti grafického rozhraní (např. zjisti počet sloves / rámců / prvků v rámcích, zobraz slovesa, která mají více než 5 rámců, najdi primární reflexiva tantum ). Užívání XSH vyžaduje základní znalost XML technologií, více viz [3]. 4 Jaké metody lze využít při testování konzistence a úplnosti VALLEXu Testování konzistence a úplnosti slovníku je metodologicky i časově náročná činnost. 6 Neznáme obecně přijatou metodologii testování systematičnosti a konzistence slovníku, která by byla dostatečně efektivní a komplexní a kterou bychom mohli přejmout, proto jsme byli nuceni vypracovat vlastní metody testování. Testování konzistence bylo částečně provedeno po základním zpracování tisíce českých sloves, druhé kolo masivního testování (a následné opravy) proběhlo po zpracování všech 1400 sloves obsažených ve verzi slovníku VALLEX Odstranění technických nedostatků Slovník VALLEX má striktně definovanou notaci, prohřešky proti ní (např. chybějící závorka) lze většinou nalézt automaticky. Dalším typem čistě technické chyby je překlep ve funktoru nebo použití neexistující morfématické formy (např. u+4 předložka u se nepojí s akuzativem). 4.2 Porovnání s jinými lexikografickými zdroji Již při základním zpracování sloves jsme využívali valenční slovník BRIEF a Slovník spisovného jazyka českého (SSJČ). Při následném testování jsme obsah Hrubý odhad času vynaloženého na testování konzistence a úplnosti slovníku se pohybuje okolo 1/3 času věnovaného vytváření slovníku.
6 slovníku VALLEX porovnávali s tím, jak jsou slovesa zpracována ve slovníku Slovesa pro praxi (SPP) a částečně i v české větvi databáze EuroWordNet (EWN). Toto porovnání bylo přínosné zejména pro vyčlenění jednotlivých významů zpracovávaných sloves a pro doplnění případných chybějících významů slovesa, přitom ovšem bylo potřeba brát v úvahu rozdílné přístupy uplatněné v jednotlivých zdrojích. Slovník BRIEF. Valenční slovník povrchových realizací ve formátu BRIEF [4], který vznikl kompilací několika tištěných slovníků, především SSJČ, byl využit již při základním zpracování sloves zejména jako zdroj morfematických forem, které se pojí s jednotlivými slovesy. Slovník spisovného jazyka českého. SSJČ a jeho elektronická podoba 7 sloužila jako základní zdroj informací o významech sloves. Vyčlenění jednotlivých významů sloves v SSJČ však neodpovídá jednotlivým valenčním rámcům (tuto zásadu jsme převzali z podkladové teorie FGD), proto bylo přepracováno s důrazem na syntaktická a sémanticko-syntaktická kritéria. Obecně jsou v SSJČ významy členěny jemněji (např. bát se), existují ovšem i příklady opačné relace (např. pocházet), viz tabulky 2 a 3. Významy v SSJČ označené za zastaralé nebyly ve VALLEXu zpracovávány. SSJČ bát se VALLEX bát se 1. mít strach 1. ACT (PAT), mít strach byla sama doma a bála se bát se tmy/učitele 2. mít strach něco udělat /aby se v labyrintu vyznal bojí se jít za tmy do lesa /že bude pršet; 3. mít strach z někoho/něčeho bojí se létat bát se otce, samoty 4. mít starost, že někdo/něco je ohrožen(o) 2. ACT PAT, obávat se o někoho/něco bát se o otce, o výsledky své práce; bála se o syna bojím se, abych neupadl Tabulka 2. Vyčlenění významů slovesa bát se v SSJČ a ve VALLEXu. SSJČ pocházet VALLEX pocházet 1. vzít původ, vznik; 1. ACT PAT, nemoc pochází z viru vzniknout, vzejít, povstat, zrodit se 2. ACT DIR1, Jan pochází z venkova 3. ACT TFRWH, rukopis pochází z roku 1352 Tabulka 3. Vyčlenění významů slovesa pocházet v SSJČ a ve VALLEXu. Slovesa pro praxi. Slovník SSP poskytuje podrobné údaje o valenčním chování vybraných sloves (767 sloves), které byly využity při testování VALLEXu. 7 Aplikace GSlov byla poskytnuta Laboratoří zpracování přirozeného jazyka, FI MU Brno.
7 Vyčlenění jednotlivých významů ovšem opět zcela neodpovídá kritériím přijatým ve VALLEXu sporná je především možnost přiřazování konkrétních užití slovesa jednotlivým rámcům (viz např. pět významů slovesa bát se, viz tabulku 4). SPP bát se 1. mít pocit ohrožení Když ten pes pozná, že se ho bojíš, kousne tě docela určitě. Koně se báli biče jako čert kříže. 2. mít obavu z něj. vlastní činnosti Nakonec se našel nakladatel, který se nebál český překlad vydat. Z chlapce se stává muž. Nebojí se žádné práce. 3. mít nelibý pocit plynoucí z očekávání něčeho nepříjemného Hlavně se bojím toho, že budu nemocná. Psi zalezli do boudy, báli se, že je tentokrát výprask nemine. Ponejvíc se lidé bojí, aby je někdo neošidil. 4. mít obavu o někoho, něco O výsledky své práce se nebojíme. Bezpečnostní situace v hlavním městě je taková, že se obyvatelé právem bojí o svůj majetek a někteří i o své životy. 5. být bojácný Pojď, neboj se, nejsi přece malé dítě. Míša se nebojí, jaképak bání! Co je to za hlídacího psa, když se bojí! Tabulka 4. Vyčlenění významů slovesa bát se v SPP. EuroWordNet. EuroWordNet 8 je multilinguální lexikální databáze; průnik sloves v její české větvi (cca sloves) a sloves zpracovaných ve VALLEXu představuje zhruba 500 sloves. EWN neobsahuje žádné informace o valenci, pokusili jsme se jej částečně využít jako pomůcku pro rozlišování významů slovesa (s plným vědomím, že členění významů v EWN, jehož základem je zpracování anglických sloves, zcela neodpovídá češtině). Nicméně výhody i nedokonalého navázání jednotlivých valenčních rámců na synsety (tj. základní významové jednotky EWN) jsou zřejmé. 4.3 Testování konzistence uvnitř VALLEXu Mezi hlavní měřítka kvality slovníku je potřeba řadit konzistenci zpracování dat, nutnost stanovit jasnou koncepci (která může být pro různé účely různá) a v jejím rámci zpracovávat stejné věci stejně. Proto je ve VALLEXu kladen velký důraz na odstranění nezdůvodnitelné různorodosti, která vzniká při budování slovníku zdola. Vidové protějšky. Valenční rámce sobě odpovídajících vidových protějšků jsou často totožné. Protože vidové protějšky byly zpracovávány nezávisle na sobě, lze jejich porovnání (a případné následné sjednocení) považovat za masivní test konzistence zpracování. Stejně jsme ve VALLEXu využili podobnosti předponových a bezpředponových sloves. 8 ewn/
8 Sjednocení anotace příbuzných sloves je přínosné zejména pro slovesa s mnoha významy např. vidové protějšky brát a vzít mají 13 totožných rámců zachycujících primární a posunuté užití a 9 totožných rámců pro idiomy, brát má navíc 4 idiomatické rámce, vzít rámce 2. Sémantické třídy. Slovník VALLEX obsahuje u přibližně jedné třetiny rámců informaci o syntakticko-sémantické třídě. I když jde zatím pouze o předběžné třídění a seskupení slovesných rámců, má velký význam pro konzistenci zpracování předpokladem je, že slovesa patřící do jedné třídy se budou chovat i z pohledu valence velmi podobně. Zatím byla systematicky provedena anotace u sloves pohybu (třídy motion, transport), sloves pravení (třídy communication, mental action, perception, social interaction) a částečně u sloves výměny (exchange). Tímto způsobem bylo například u sloves pohybu (motion, transport) systematicky doplněno typické doplnění záměru (funktor INTT) vždy k primárnímu významu zpracovaných sloves, jít na houby, přivedl mu ukázat přítelkyni (původně 24 intuitivně anotovaných výskytů INTT bylo rozšířeno na 48 výskytů). Morfématické formy. Systematicky byly zpracovány některé morfématické formy byly porovnány všechny funktory s konkrétními formami i celé valenční rámce. Tyto testy byly účelné zejména pro zpracování předložkových skupin o+4 (zejména s ohledem na zachycení funktorů DIFF (difference, rozdíl) a OBST (obstacle, překážka)) a za+4 (systematické zpracování sloves výměny). Dále byla zkoumána doplnění vyjádřená infinitivem a výrazem jako (konzistentní rozlišování funktorů COMPL (complement, doplněk) a EFF (effect)). Kromě toho byly zkoumány možné kombinace morfématických forem u jednotlivých funktorů (např. u funktoru INTT (intence, záměr) u sloves pohybu byla forma sjednocena na na+4, inf). 9 Další možností je porovnávat kombinace forem bez ohledu na funktor (zejména např. pro úplný soubor podřadících spojek, zatím zpracováno částečně). Typická doplnění. Systematicky jsou zpracovávána též fakultativní volná doplnění, která lze označit jako typická (viz poznámka 5). Byly porovnány všechny rámce, ve kterých se vyskytuje některé ze specifických volných doplnění (např. MEANS, BEN, CAUS). Typická doplnění byla sjednocena také u sloves již zpracovaných sémantických tříd. Například slovesa pohybu (třídy motion a transport) jsou typicky rozvíjena volnými doplněními směru pro určení obligatorního doplnění směru dává kritéria FGD, fakultativní doplnění jsou zpracována systematicky v rámci tříd; slovesa vyjadřující pohyb pomocí dopravního prostředku mají typicky volné doplnění prostředku, MEANS. Četnost. Jako obecně užitečná se ukázala technika co je málo časté, to je 9 Výjimku tvoří sloveso nést ve významu nese rozdat handouty, kde není možná předložková skupina na+4 (nejednotnost je tedy v tomto případě opodstatněná).
9 podezřelé. Tuto techniku lze s výhodou využít napříč slovníkem, u všech zachycovaných informací. Například u morfématické formy lze tímto způsobem odhalit nejen překlepy, ale i idiomatičnost některých spojení. U funktorů, které se ve VALLEXu vyskytly pouze několikrát, je potřeba zkontrolovat jejich účelnost, případně správné rozlišování anotátory (konkrétně např. funktory NORM, norma a CRIT, kritérium). Také ověřování anotace kontroly a reciprocity vedlo k omezení neopodstatněné různorodosti (málo četné hodnoty v těchto atributech vedly k odhalení technických nedostatků i faktických chyb). Technika co je málo časté, to je podezřelé byla (zatím částečně) použita i na celé valenční rámce pokud se některý rámec vyskytne v celém VALLEXu jen jednou, je vhodné ověřit, zda se v něm nevyskytuje nějaká chyba nebo neopodstatněná variace. 4.4 Ověřování na Českém národním korpusu Zpracování sloves ve VALLEXu je ověřováno na autentických příkladech užití slovesa v ČNK. 10 Pro každé zpracované sloveso jsme použili 60 (pro nejsložitější slovesa 100) náhodně vybraných příkladových vět 11 z ČNK a ověřovali, zda lze výskytům daného slovesa přiřadit valenční rámec z VALLEXu. Přínosem této metody je především ověření vhodného rozčlenění slovesných rámců důležitým kritériem pro vyčlenění jednotlivých valenčních rámců je shoda anotátorů v jejich přiřazování konkrétním výskytům slovesa, případně doplnění chybějících rámců. Například pro sloveso nalézat I byly původně vyčleněny 4 rámce 1. hledáním získávat, objevovat (nalézat zlato na Aljašce), 2. získávat (nalézat přítele, potěšení v práci, pochopení), 3. odhalovat (nalézat na studiu kladné stránky), 4. ohodnotit (nenalézal na něm nic dobrého); testy na příkladech ukázaly nemožnost rozlišovat mezi 2. a 3. rámcem, proto byly tyto dva rámce sloučeny (v souladu se SSJČ). Naopak, na základě vět z ČNK byl pro sloveso přijmout vyčleněn nový rámec sglosouschválit (parlament přijal zákon). 5 K čemu valenční slovník? Při budování VALLEXu je kladen důraz na skutečnost, aby byl slovník snadno a rychle čitelný, na snadnou orientaci a na srozumitelnost. To jsou základní předpoklady, které jsou nezbytné pro efektivní manuální zpracovávání jednotlivých sloves a pro možnost odhalování chyb a nekonzistencí. Na druhou stranu je takový formát podmínkou pro využití slovníku v dalším lingvistickém výzkumu. Nicméně hlavní přínos VALLEXu se předpokládá v automatických procedurách NLP. V současné době se VALLEX testuje v následujících aplikacích: Pro časovou náročnost těchto kontrol (60 x 1000 vět = přiřazených výskytů valenčního rámce) bylo zatím použito pouze omezeného vzorku ČNK, předpokládáme další ověřování.
10 automatická syntaktická analýza ( shallow parsing ); tektogrammatický parser, tj. automatický systém pro vytváření významové reprezentace české věty; zdrojová data pro budování valenčního slovníku substantiv. Valenční slovník VALLEX je pro nekomerční účely volně k dispozici, více informací viz 6 Shrnutí a otevřené otázky Vytváření valenčního slovníku českých sloves VALLEX je úzce spojeno s budováním Pražského závislostního korpusu, jeho koncept vznikl v souvislosti s potřebou zajistit konzistentní zachycení valence v PDT. Zásadní důraz je přitom kladen na systematičnost zpracování všech jevů ve slovníku obsažených. V tomto příspěvku jsme představili nástroje pro vyhledávání údajů a třídění hesel podle jednotlivých atributů, které byly navrženy pro testování konzistence a úplnosti slovníku. Dále jsme přiblížili řadu metod již použitých i v současné době aplikovaných tyto metody jednak využívají existující jazykové zdroje, jednak se soustřeďují na eliminaci neopodstatněné různorodosti a na dosažení jednotného zpracování jevů ve slovníku obsažených. Metody zde stručně popsané je možno chápat jako příspěvek k vytváření metodologie testování konzistence a úplnosti jazykových zdrojů. Zatím otevřenou otázkou zůstává metodologie evaluace slovníku, kvalifikovaný odhad možného množství chyb a mezianotátorské shody. Reference 1. Hajič, J., Panevová, J., Urešová, Z., Bémová, A., Kolářová, V., Pajas, P PDT-VALLEX: Creating a Large-coverage Valency Lexicon for Treebank Annotation. In: Proceedings of The Second Workshop on Treebanks and Linguistic Theories. pp Vaxjo University Press. 2. Hajičová, E., Panevová, J., Sgall, P Manuálů pro tektogramatické značkování. ÚFAL/CKL TR Lopatková, M., Žabokrtský, Z., Skwarska, K., Benešová, V Tektogramaticky anotovaný valenční slovník českých sloves. ÚFAL/CKL TR Pala K., Ševeček, P Valence českých sloves (Valency of Czech verbs). In: Sborník prací FFBU. volume A Panevová, J Valency Frames and the Meaning of the Sentence. In: Ph. L. Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics. Amsterdam-Philadelphia, John Benjamins, pp Sgall, P., Hajičová, E., Panevová, J The Meaning of the Sentence in Its Semantic and Pragmatic Aspects (ed. by J. Mey). Dordrecht:Reidel and Prague:Academia. 7. Svozilová, N., Prouzová, H., Jirsová, A Slovesa pro praxi. Academia, Praha. 8. Slovník spisovného jazyka českého. Praha
Valence a Pražský závislostní korpus (PDT)
SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 Jarmila Panevová, Markéta Lopatková panevova@ufal.mff.cuni.cz lopatkova@ckl.mff.cuni.cz Valence a Pražský závislostní korpus (PDT) 1. Teorie valence v teoretickém
PDT-Vallex: trochu jiný valenční slovník
PDT-Vallex: trochu jiný valenční slovník Zdeňka Urešová uresova@ufal.mff.cuni.cz Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky Malostranské nám. 25 11800 Praha 1 Česká republika Abstract
VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová
VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex Zdeňka Urešová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Zdeňka Urešová VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex
Možné alternace ve VALLEXu
Možné alternace ve VALLEXu Úvod Snažila jsem se zachytit a stručně popsat jednotlivé možné typy alternací. Projevují se změnami v rámci ( funktory, obsazení funktorů, ) při popsatelném pevně daném posunu
Výňatek (obsah a teoretický úvod) z knihy
Výňatek (obsah a teoretický úvod) z knihy Markéta Lopatková, Zdeněk Žabokrtský, Václava Kettnerová a kol.: Valenční slovník českých sloves. Univerzita Karlova v Praze, Nakladatelství Karolinum, Praha,
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE Veronika Kolářová, Jana Klímová, Anna Vernerová Ústav formální a aplikované lingvistiky MFF UK Praha 22. 4. 2016 Slovanská lexikografie počátkem 21.
ČASOPIS PRO MODERNÍ FILOLOGII 99, 2017, Č. 1, S
ČASOPIS PRO MODERNÍ FILOLOGII 99, 2017, Č. 1, S. 131 146 MARKÉTA LOPATKOVÁ A KOL.: VALENČNÍ SLOVNÍK ČESKÝCH SLOVES VALLEX Druhé vydání, přepracované a rozšířené Praha: Karolinum, 2016, 698 stran ISBN 978-80-246-3542-2
O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU. Kateřina Rysová
O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Kateřina Rysová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Kateřina Rysová O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Published by Institute of Formal and Applied
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy Veronika Kolářová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 1
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
ve strojovém překladu
Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Veronika Kolářová, Jan Kolář, Marie Mikulová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů
Datová kvalita. RNDr. Ondřej Zýka
Datová kvalita RNDr. Ondřej Zýka 1 Datová kvalita Jedna z kompetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě potřebné k jejich činnosti Kvalita dat: Subjektivní pojem závislý na požadavcích
LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU
LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU VÁCLAVA KETTNEROVÁ KAROLINUM Lexikálně-sémantické konverze ve valenčním slovníku Mgr. Václava Kettnerová, Ph.D. Recenzovali: prof. PhDr. Petr Karlík,
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
Sémantická interpretace
Vysoké učení technické v Brně Fakulta informačních technologií Sémantická interpretace Moderní teoretická informatika Semestrální projekt Autor: Zdeněk Martínek Školitel: RNDr. Jitka Kreslíková, CSc. 19.
VALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU. Zdeňka Urešová
VALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU Zdeňka Urešová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Zdeňka Urešová VALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU Published by Institute of
Liší se mluvené a psané texty ve valenci? 1
Liší se mluvené a psané texty ve valenci? 1 Marie Mikulová Jan Štěpánek Zdeňka Urešová Ústav formální a aplikované lingvistiky, MFF UK Praha {mikulova, stepanek, uresova}@ufal.mff.cuni.cz Valency in spoken
O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU. Kateřina Rysová
O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Kateřina Rysová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Kateřina Rysová O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Published by Institute of Formal and Applied
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
Datová kvalita. RNDr. Ondřej Zýka
Datová kvalita RNDr. Ondřej Zýka 1 Datová kvalita Jedna z kompetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě potřebné k jejich činnosti Kvalita dat: Subjektivní pojem závislý na požadavcích
Valence vybraných skupin sloves (k některým slovesům dandi a. recipiendi) *
Markéta Lopatková, Jarmila Panevová (MFF UK Praha) Valence vybraných skupin sloves (k některým slovesům dandi a recipiendi) * 1. Motivace K výběru sloves, jejichž valenční analýzu podanou v rámci funkčního
STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého
STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého Počet kreditů: 1 Typ předmětu: volitelný Způsob zakončení: zápočet Garant
POSUDEK VEDOUCÍHO BAKALÁŘSKÉ PRÁCE
POSUDEK VEDOUCÍHO BAKALÁŘSKÉ PRÁCE Jméno studenta Branný Jan Název práce Jméno vedoucího práce Jméno oponenta práce Realizace modulárního CMS pro digitální agentury Ing. David Hartman Ph.D. Ing. Lukáš
Ontologie. Otakar Trunda
Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba
Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15
Obsah Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15 VÝSLOVNOST A PRAVOPIS Německá výslovnost 18 Hlavni rozdíly mezi českou a německou výslovnosti 19 Přízvuk 20
0. Úvod. 1. Syntaktické značkování textu
Systém pro syntaktické značkování velkých textových korpusů 1 Tomáš Jelínek Ústav teoretické a komputační lingvistiky Filozofické fakulty Karlovy univerzity Abstract Syntactic annotation of corpora is
Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby
Ročník: 5. Časová dotace: 7 hodin týdně Komunikační a slohová Zážitkové čtení a naslouchání klíčová slova vyhledávací čtení aktivní naslouchání se záznamem slyšeného Žák při hlasitém čtení vhodně využívá
MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/ R O Z H O D N U T Í č. 19/2016. ministryně pro místní rozvoj. ze dne
MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/2016-56 R O Z H O D N U T Í č. 19/2016 ministryně pro místní rozvoj ze dne 18. 2. 2016 o Pravidlech správy otevřených dat Ministerstva pro místní rozvoj S účinností
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
Manuální anotace a sběr dat pro automatickou extrakci referencí ze soudních rozhodnutí Jakub Harašta Jaromír Šavelka
Manuální anotace a sběr dat pro automatickou extrakci referencí ze soudních rozhodnutí Jakub Harašta Jaromír Šavelka Podpořeno Grantovou agenturou ČR v rámci projektu GA17-20645S (Exaktní hodnocení aplikační
Výuka čtenářských strategií v zahraničí (evropské a zámořské trendy) Ladislava Whitcroft
Výuka čtenářských strategií v zahraničí (evropské a zámořské trendy) Ladislava Whitcroft Co jsou čtenářské strategie? Záměrné a cílené pokusy čtenáře o kontrolu nad schopností dekódovat text, porozumět
Strukturovaný životopis
Strukturovaný životopis Mgr. Magdaléna Rysová Osobní informace E-mail: magdalena.rysova@post.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Vzdělání od 2012 FF UK v Praze: doktorské studium, obor Český
KOMUNIKAČNÍ PLATFORMA PRO INICIACI STUDENTSKÉ SPOLUPRÁCE COMMUNICATION PLATFORM FOR AN INICIATION OF A STUDENT COLLABORATION
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA VÝTVARNÝCH UMĚNÍ FACULTY OF FINE ARTS ATELIÉR GRAFICKÉHO DESIGNU 1 STUDIO GRAPHIC DESIGN 1 KOMUNIKAČNÍ PLATFORMA PRO INICIACI STUDENTSKÉ
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
České vysoké učení technické v Praze SGS ČVUT 2015 Číslo grantu: SGS15/097/OHK1/1T/15 Číslo FIS: E000. Závěrečná zpráva
Závěrečná zpráva Název projektu: Řešitel: Nové metody práce s databázovými daty dokumentujícími díla moderní architektury z hlediska dějin a vývoje architektury. Srba Jaromír Ing. arch. Informace o řešení
Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz
Vývoj moderních technologií při vyhledávání Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz INFORUM 2007: 13. konference o profesionálních informačních zdrojích Praha, 22. - 24.5. 2007 Abstrakt Vzhledem
Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.
Modely datové Existují různé úrovně pohledu na data. Nejvyšší úroveň je úroveň, která zachycuje pouze vztahy a struktury dat samotných. Konceptuální model - E-R model. Další úrovní je logická úroveň Databázové
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady
Jednoduchá sdělení představování, poděkování, pozdrav, omluva Základní výslovnostní návyky
Učební osnovy Ruský jazyk PŘEDMĚT: Ruský jazyk Ročník: 7. třída 1 rozumí jednoduchým pokynům a otázkám učitele, které jsou pronášeny pomalu a s pečlivou výslovností, a reaguje na ně 1p je seznámen se zvukovou
Příloha: Dodatečné informace, včetně přesného znění žádosti dodavatele o dodatečné informace
Příloha: Dodatečné informace, včetně přesného znění žádosti dodavatele o dodatečné informace Pořadové číslo dodatečných informací: 14. ČÁST 1: Přesné znění žádosti dodavatele o dodatečné informace Otázka
METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU
METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU vyučující doc. RNDr. Jiří Zháněl, Dr. M I 4 Metodologie I 7. ANALÝZA DAT (KVANTITATIVNÍ VÝZKUM) (MATEMATICKÁ) STATISTIKA DESKRIPTIVNÍ (popisná) ANALYTICKÁ
Common Language Resources and Their Applications
Common Language Resources and Their Applications http://clara.b.uib.no/ Markéta Lopatková Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze formální rámec
Čím může bohemistice přispět současná počítačová lingvistika?
Jarmila Panevová (Univerzita Karlova, Praha) Čím může bohemistice přispět současná počítačová lingvistika? I. Po několik destiletí (od 2. poloviny 20. století) se mohlo zdát, že počítačová a formální lingvistika
Popis potřeb, které mají být splněním veřejné zakázky naplněny. Popisu předmětu veřejné zakázky.
Odůvodnění účelnosti veřejné zakázky Odběr pachových vzorků osob formou bukálního stěru a jejich využití k rozlišování pachu metodou pachové identifikace Odůvodnění účelnosti veřejné zakázky podle 1 vyhlášky
Vzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 4. ročník Zpracovala: Mgr. Helena Ryčlová Komunikační a slohová výchova čte s porozuměním přiměřeně náročné texty potichu i nahlas čte s porozuměním
Využití informačních technologií v pedagogické evaluaci
11. konference ČAPV Sociální a kulturní souvislosti výchovy a vzdělávání Využití informačních technologií v pedagogické evaluaci Martin Chvál Anotace: V příspěvku je představena možná struktura databází
Obsah. Zpracoval:
Zpracoval: houzvjir@fel.cvut.cz 03. Modelem řízený vývoj. Doménový (business), konceptuální (analytický) a logický (návrhový) model. Vize projektu. (A7B36SIN) Obsah Modelem řízený vývoj... 2 Cíl MDD, proč
SYNTAX LS Úvod
SYNTAX LS 2017 Úvod Co očekáváte od předmětu? viz sylabus požadavky Literatura Nový encyklopedický slovník češtiny https://www.czechency.org/ Panevová a kol. (2014) Mluvnice současné češtiny 2. http://www.cupress.cuni.cz/ink2_ext/index.jsp?
PRODUKTY. Tovek Tools
Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních
KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:
KVALITA DAT Správnost výsledku použití GIS ovlivňuje: POUŽITÁ APLIKACE Kvalita dat v databázi Kvalita modelu, tj. teoretického popisu krajinných objektů a jevů Způsob použití funkcí GIS při přepisu modelu
E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO
Seznam výukových materiálů III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblast: Předmět: Vytvořil: Rozvoj řečových dovedností Ruský jazyk Helena Malášková 01 O spánku a váze - prezentace
KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!
KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze O (Ú)ČNK Ústav Českého národního korpusu, založen v roce
Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje
jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových
NLP & strojové učení
NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování
Školní vzdělávací program Základní školy a mateřské školy Sdružení
Vyučovací předmět: Český jazyk a literatura 3. ročník Měsíc Téma Učivo Očekávaný výstup září říjen OPAKOVÁNÍ Z 2. roč. VĚTA JEDNODUCHÝ PŘÍBĚH OPAKOVÁNÍ Z 2. ročníku PÁROVÉ SOUHLÁSKY ABECEDA JEDNODUCHÝ
Olympiáda v českém jazyce 43. ročník, 2016/2017
Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, 110 00 Praha 1 Olympiáda v českém jazyce 43. ročník, 2016/2017 krajské kolo řešení I. kategorie 1. Příklady řešení: a) Bojí se ho jako čert
Informační a komunikační technologie. Informační a komunikační technologie
Oblast Předmět Období Časová dotace Místo realizace Charakteristika předmětu Průřezová témata Informační a komunikační technologie Informační a komunikační technologie 5. 6. ročník 1 hodina týdně počítačová
UNIVERZITA KARLOVA FILOZOFICKÁ FAKULTA FUNKCE ADVERBÁLNÍHO DATIVU V HLOUBKOVÉ A POVRCHOVÉ STAVBĚ ČESKÉ VĚTY
UNIVERZITA KARLOVA FILOZOFICKÁ FAKULTA ÚSTAV ČESKÉHO JAZYKA A TEORIE KOMUNIKACE Magda Razímová FUNKCE ADVERBÁLNÍHO DATIVU V HLOUBKOVÉ A POVRCHOVÉ STAVBĚ ČESKÉ VĚTY Diplomová práce Praha 2004 Vedoucí diplomové
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
Žák porovnává významy slov, zvláště slova podobného nebo stejného významu a slova vícevýznamová O jazyce Opakování učiva 3. ročníku Národní jazyk Naše vlast a národní jazyk Nauka o slově Slova a pojmy,
Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR
Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR Bod programu: Věcné zpracování (možnosti obohacování dříve dodaných záznamů) Marie.Balikova@nkp.cz Pracovní skupina pro SK, 7.3.
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek I. Zpracování textu II. III. IV. Jazyk G Desambiguace Kontrola gramatiky V. Kontrola stylu VI. Valence sloves VII. Vývoj a odezva I. Zpracování
PŘEDMLUVA VÝKLADOVÁ ČÁST
PŘEDMLUVA VÝKLADOVÁ ČÁST 11 SYNTAX LATINSKÝCH VEDLEJŠÍCH VĚT 12 ÚVOD ÚVOD V lingvistice se od druhé poloviny 20. století věnuje syntaxi velká pozornost. Mezi nejvýznamnější teoretické přístupy patří transformačně
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
Český jazyk ve 4. ročníku
Český jazyk ve 4. ročníku září Jazyková Čte s porozuměním přiměřeně náročné texty potichu i nahlas. učebnice strana 3 7 Procvičuje praktické naslouchání při komunikaci s další osobou. pracovní sešit strana
AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.
AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK. Václav Snášel, Jiří Dvorský, Petr Šaloun, Daniela Ďuráková VŠB Technická univerzita, 17. listopadu 15, 708 33 Ostrava Abstract Textová databáze AmphorA
PRODUKTY. Tovek Tools
jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.
Úvod do logiky (VL): 4. Zjištění průběhu pravdivostních hodnot formule tabulkovou metodou
Logika: systémový rámec rozvoje oboru v ČR a koncepce logických propedeutik pro mezioborová studia (reg. č. CZ.1.07/2.2.00/28.0216, OPVK) Úvod do logiky (VL): 4. Zjištění průběhu pravdivostních hodnot
Český jazyk v 5. ročníku
Český jazyk v 5. ročníku září Jazyková Při hlasitém čtení vhodně využívá modulace souvislé řeči a různá zabarvení hlasu. Po tichém čtení samostatně reprodukuje text. Odliší podstatné a okrajové informace,
NomVallex: Valenční slovník českých substantiv založený na korpusu
NomVallex: Valenční slovník českých substantiv založený na korpusu Veronika Kolářová, Jarmila Panevová, Jana Klímová, Anna Vernerová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta
Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky
Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů
LINKED AKADEMIE. Informace pro partnery PROČ PODPOŘIT? PROČ LINKED AKADEMIE?
LINKED AKADEMIE Informace pro partnery PROČ LINKED AKADEMIE? LinkedIn je nejrychleji rostoucí profesní sociální síť Je efektivním nástrojem k k budování expertní značky hledání práce získávání nových klientů
Návrh. VYHLÁŠKA ze dne 2016 o požadavcích na systém řízení
Návrh II. VYHLÁŠKA ze dne 2016 o požadavcích na systém řízení Státní úřad pro jadernou bezpečnost stanoví podle 236 zákona č..../... Sb., atomový zákon, k provedení 24 odst. 7, 29 odst. 7 a 30 odst. 9:
V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.
Syntakticky anotovaný korpus českých textů Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič, Alexandr Rosen, Hana Skoumalová Ústav teoretické a komputační lingvistiky, Filozofická fakulta
Využití informačních technologií v cestovním ruchu P4
Využití informačních technologií v cestovním ruchu P4 Pavel Petr Petr.USII@upce.cz 1 Obsah kurzu Princip vyhledávání Definování vyhledávacích požadavků Vyhledávací nástroje Zdroje informací Nástroje pro
Odborný článek. Petr Klán, VŠE v Praze, IMRAD Introduction, Material and Method, Results, Discussion
Odborný článek Petr Klán, VŠE v Praze, petr.klan@vse.cz Části odborného článku IMRAD Introduction, Material and Method, Results, Discussion NADPIS Do 10 slov Autor (autoři) Jméno, adresa, e-mail Abstrakt
Cestovní zpráva. Program akce: Průběh akce. O Anopress
Cestovní zpráva Pracovník: Jiří Fišer Akce: Školení o obsluze databází z programu VISK8-A Datum konání: 4. 4. 2016 Místo konání: Praha, Národní knihovna Klíčová slova: Anopress -- vyhledávání -- tisk --
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
Nainstalovat Tred!
Nainstalovat Tred! http://ufal.mff.cuni.cz/tred/ 1 Korpusy a lingvistické nástroje Daniel Zeman zeman@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova
Cvičení z matematiky - volitelný předmět
Vyučovací předmět : Období ročník : Učební texty : Cvičení z matematiky - volitelný předmět 3. období 9. ročník Sbírky úloh, Testy k přijímacím zkouškám, Testy Scio, Kalibro aj. Očekávané výstupy předmětu
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
září Žák porovnává významy slov, zvláště slova podobného nebo stejného významu a slova vícevýznamová. Žák dokáže rozlišit mluvnické kategorie podstatných jmen (pád, číslo, rod), rozliší větu jednoduchou
Itálie Dotazník pro učitele VŠ připravující budoucí učitele cizích jazyků Zpracování údajů
Itálie Dotazník pro učitele VŠ připravující budoucí učitele cizích jazyků Zpracování údajů O Vás 1. Dotazník vyplnilo sedm vysokoškolských pedagogů připravujících budoucí učitele cizích jazyků. 2. Šest
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Ondřej Bojar Automatická extrakce lexikálně-syntaktických údajů z korpusu Praha 2002 Ústav formální a aplikované lingvistiky Vedoucí
SKLADBA SOUVĚTÍ. Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje
SKLADBA SOUVĚTÍ Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje duben 2010 Mgr. Domalípová Marcela, Mgr. Fořtová Jana 1 z 14 Obsah: vztahy mezi větami
Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1
f.voborská/41-46/6 6.2.2009 21:56 Stránka 41 Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1 Ústav pro jazyk český AV ČR, v. v. i. Tools for Inputting Morphological Data A Proposal
RNDr. Milan Šmídl, Ph.D. Co je to BOV?
RNDr. Milan Šmídl, Ph.D Co je to BOV? BOV = Badatelsky Orientovaná Výuka Inquiry Based Science Education (IBSE) Inguiry = bádání, zkoumání, hledání pravdy cílevědomý proces formulování problémů, kritického
Ročník: 4. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby
Ročník: 4. Časová dotace: 7 hodin týdně Komunikační a slohová Čtení a naslouchání čtení jako zdroj informací aktivní naslouchání s otázkami Žák čte s porozuměním přiměřeně náročné texty potichu i nahlas.
Zpráva o výsledcích dotazníkového šetření Škola a já
Zpráva o výsledcích dotazníkového šetření Škola a já Mateřská škola Klubíčko Grusova 448, Pardubice školní rok 2017/2018 (zpracoval Kalibro Projekt, s.r.o.) 1 1. Úvod Kalibro je dlouhodobý projekt, určený
Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka
Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105
Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl
Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.
Anglicko český technický slovník Lingea Ing. Miroslav HEROLD, CSc. Na Jeronýmovi 2010 byl ke shlédnutí nový slovníkový titul pod rozhraním LEXICON 5 Anglicko-český technický slovník. Toto rozhraní bylo
VY_32_INOVACE_CH8SA_01_01_01. VY_32_INOVACE_CJ678JO_09_03_17 materiál č. šablony/č. sady/č. materiálu: Hana Johánková Vzdělávací oblast předmět:
Masarykova základní škola Klatovy, tř. Národních mučedníků 185, 339 01 Klatovy; 376312154, fax 376326089 E-mail: skola@maszskt.investtel.cz; internet: www.maszskt.investtel.cz Kód přílohy vzdělávací VY_32_INOVACE_CH8SA_01_01_01
Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY. Karel Oliva Ústav pro jazyk český Akademie věd ČR
Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY Karel Oliva Ústav pro jazyk český Akademie věd ČR Předchůdce: korektor pravopisu Příklad: Psi štěkaly. OK Technologie: vyhledávání v (dlouhém) seznamu slov slovo
4.9.2. Příprava na Cambridge English
4.9.2. Příprava na Cambridge English Seminář je určen pro pokročilé žáky anglického jazyka, kteří se chtějí systematicky připravovat ke zkoušce k získání nejrozšířenějšího mezinárodně uznávaného certifikátu
2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.
TABULKY SLOVÍČEK Už před lety jsem si všiml, že z nějakého důvodu studenti na základní a dokonce i na pokročilejší úrovni často neznají některá úplně základní slovíčka. Nejvíce se to dá pozorovat u sloves,
Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/34.0333 Vzdělávání v informačních a komunikačních technologií
VY_32_INOVACE_33_02 Škola Název projektu, reg. č. Vzdělávací oblast Vzdělávací obor Tematický okruh Téma Tematická oblast Název Autor Vytvořeno, pro obor, ročník Anotace Přínos/cílové kompetence Střední
Přínos SEKM pro NIKM
Start Přínos SEKM pro NIKM Ing. Roman Pavlík Výchozí stav Stav v době podání projektu NIKM základ softwarových aplikací z doby vzniku systému, tj. 1996 nezávislý provoz aplikací v lokálních sítích a na
Jak psát Bc. resp. Mgr. závěrečnou práci. Zpracoval: Karel Bílek
Jak psát Bc. resp. Mgr. závěrečnou práci Zpracoval: Karel Bílek Tato prezentace vznikla v rámci řešení doktorského projektu GAČR 523/03/H076 duben 2005 Textový dokument... co to je? Textovým dokumentem
ČESKÝ JAZYK 3. ROČNÍK
VZDĚLÁVACÍ OBLAST: VZDĚLÁVACÍ OBOR: PŘEDMĚT: JAZYK A JAZYKOVÁ KOMUNIKACE ČESKÝ JAZYK A LITERATURA ČESKÝ JAZYK 3. ROČNÍK Téma, učivo Rozvíjené kompetence, očekávané výstupy Mezipředmětové vztahy Aktualizace