Výsledky dosažené v roce 2007



Podobné dokumenty
KLÍČE KE KVALITĚ (METODIKA II)

Systém elektronického zpracování údajů o výzkumných projektech a jejich hodnocení v GA AV

Kde hledat odborné zahraniční články?

aplikace DATEL Uživatelský manuál žáci školní testovací verze

VÝZVA. Česká republika-ministerstvo školství, mládeže a tělovýchovy (dále jen zadavatel) se sídlem Karmelitská 7, Praha 1, IČ

Návrh individuálního národního projektu. Podpora procesů uznávání UNIV 2 systém

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností

PUBLICITA v OP VK. Seminář pro příjemce v rámci globálních grantů Olomouckého kraje. Olomouc, 20. a 21. dubna 2009

POSTUPY, JIMIŽ SE ŘÍDÍ ZÍSKÁVÁNÍ SOUKROMÝCH ARCHIVŮ POSLANCŮ A BÝVALÝCH POSLANCŮ PRO EVROPSKÝ PARLAMENT

Výzva k podání nabídek (zadávací dokumentace)

Výstavba víceúčelových sportovních zařízení Stavební práce Předpokládaná hodnota VZ (v Kč bez DPH):

I Podrobné požadavky ministerstva na předmět zakázky

Výzva k podání nabídky na zpracování územního plánu obce Vyžlovka

Metodika testování navazujících evidencí

SMĚRNICE FF UJEP 31/2013

Pravidla. pro uskutečňování Programu podpory českého kulturního dědictví v zahraničí v oblasti lektorátů a Krajanského vzdělávacího programu

1. VÝCHODISKA AKTUALIZOVANÉHO DLOUHODOBÉHO ZÁMĚRU

VYKAZOVÁNÍ VÝSLEDKŮ VÝZKUMU A VÝVOJE

Absolventské práce žák devátého ro níku

VI. Finanční gramotnost šablony klíčových aktivit

NÚOV Kvalifikační potřeby trhu práce

městské části Praha 3 pro rok 2016 připravila

Koncepce rozvoje Polytematického strukturovaného hesláře (PSH)

Návrh reengineeringu vybraných procesů společnosti NeXA

Charakteristika kurzu BE4

Mobilní aplikace. Dokument nepopisuje administrační rozhraní (backend) ani napojení na příbuzné databáze.

Aktualizace softwaru Uživatelská příručka

Informace o projektu

Nemocnice a centra zobrazovacích metod d v ují systém m Rimage pro publikování disk s informacemi o pacientech, které mohou zachránit život

Pokyny k vyplnění Průběžné zprávy

RÁMCOVÁ DOHODA ŠVÝCARSKOU FEDERÁLNÍ RADOU. VLÁDOU ČESKÉ REPUBLIKY týkající se

170/2010 Sb. VYHLÁŠKA. ze dne 21. května 2010

ABSOLVENTSKÉ PRÁCE ŽÁKŮ DEVÁTÉHO ROČNÍKU

Modul informačního systému SPŠSE Liberec

SEKCE J INFORMAČNÍ A KOMUNIKAČNÍ ČINNOSTI

Česká republika Ministerstvo práce a sociálních věcí Na Poříčním právu 1, Praha 2. vyzývá

MV ČR, Odbor egovernmentu. Webové stránky veřejné správy - minimalizace jejich zranitelnosti a podpora bezpečnostních prvků

Specifikace pravidel hodnocení pro vzdělávací obor: český jazyk a literatura

Staroegyptská matematika. Hieratické matematické texty

Pokyny k instalaci FRIATRACE Verze 5.3

Seriál: Management projektů 7. rámcového programu

Projekt Datové schránky. Zdeněk Zajíček náměstek ministra vnitra

Semestrální práce Testování uživatelského rozhraní

Číslo veřejné zakázky (bude doplněno poskytovatelem dotace) 1 Název programu: Operační program Vzdělávání pro konkurenceschopnost

REVOLVINGOVÝ FOND Ministerstva životního prostředí

I N V E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í

Západní město Stodůlky, Administrativní dům A2 plynovod 1.etapa

OBECNÍ ZPRAVODAJ II / 2015

PŘIJÍMACÍ ŘÍZENÍ. Strana

Úvod do problematiky dlouhodobé ochrany digitálních dokumentů - díl 4.

Postoje a zkušenosti studentů speciální pedagogiky v oblasti užívaní návykových látek

Výzva k podání nabídek (pro účely uveřejnění na nebo www stránkách krajů)

Pardubický kraj Komenského náměstí 125, Pardubice SPŠE a VOŠ Pardubice-rekonstrukce elektroinstalace a pomocných slaboproudých sítí

Ovoce do škol Příručka pro žadatele

Pomůcka pro zařazení způsobilých výdajů při vyplňování přílohy č. 1. Žádosti o finanční příspěvek (rozpočtu).

VÝBĚR DOČASNÝCH ZAMĚSTNANCŮ PRO GENERÁLNÍ ŘEDITELSTVÍ PRO LIDSKÉ ZDROJE A BEZPEČNOST

Hýbeme se (nejen) jízdou na kole

Obecně závazná vyhláška městyse Lázně Toušeň č. 2/2007. o místních poplatcích

Rozvojový projekt na rok 2012

ŠANGRI-LA projekt ÚVOD. Vážení!

Nabídka vzdělávacích seminářů

Regionální rada regionu soudržnosti Moravskoslezsko. vyhlašuje VÝZVU K PŘEDKLÁDÁNÍ ŽÁDOSTÍ O DOTACI

Zápis a usnesení ze zasedání zastupitelstva obce Nespeky konaného dne na Obecním úřadě v Nespekách č. p. 12

Město Rožnov pod Radhoštěm

Komentář k datovému standardu a automatizovaným kontrolám obsahu F_ODPRZ_BAT

Agronomická fakulta MENDELU řeší projekty OP VK

ZADÁVACÍ DOKUMENTACE 1) Identifikace zadavatele 2) P esné vymezení p edm tu zakázky a požadavk zadavatele

STANDARD 3. JEDNÁNÍ SE ZÁJEMCEM (ŽADATELEM) O SOCIÁLNÍ SLUŽBU

PŘÍRUČKA K PŘEDKLÁDÁNÍ PRŮBĚŽNÝCH ZPRÁV, ZPRÁV O ČERPÁNÍ ROZPOČTU A ZÁVĚREČNÝCH ZPRÁV PROJEKTŮ PODPOŘENÝCH Z PROGRAMU BETA

Evropská digitální knihovna a autorské právo. Adéla Faladová. odbor autorského práva, Ministerstvo kultury

POKYNY PRO PLATBY FINANČNÍ MECHANISMUS EHP A NORSKÝ FINANČNÍ MECHANISMUS (1.revize - 21.června 2007)

KVALIFIKAČNÍ DOKUMENTACE k veřejné zakázce zadávané podle zákona č. 137/2006 Sb., o veřejných zakázkách, ve znění pozdějších předpisů

statutární město Děčín podlimitní veřejná zakázka na služby: Tlumočení a překlady dokumentů

Sto tisíc e-dokumentů na dosah

Č.j.: 13877/ Popis vzájemného vztahu mezi realizovanou veřejnou zakázkou a plánovaným cílem.

Podrobný postup pro doplnění Žádosti o dotaci prostřednictvím Portálu Farmáře. 1. kolo příjmu žádostí Programu rozvoje venkova ( )

PODMÍNKY VÝBĚROVÉHO ŘÍZENÍ

Analýza oběžného kola

2. CÍL A SOUVISLOSTI VÝBĚROVÉ ŘÍZENÍ 1. NÁZEV

PROJEKT 3, kód:

2. ZÁKLADNÍ ÚDAJE CHARAKTERIZUJÍCÍ STAVBU A JEJÍ BUDOUCÍ PROVOZ

Zpráva o zhodnocení průběhu plnění Koncepce vzdělávání v oblasti krizového řízení a stanovení dalšího postupu

KOMISE EVROPSKÝCH SPOLEČENSTVÍ ZPRÁVA KOMISE. Výroční zpráva o činnostech v rámci výzkumu a technického rozvoje v Evropské unii za rok 2003

VÝROČNÍ ZPRÁVA 2005 (CRPDZ MSK) CENTRUM PRO ROZVOJ PÉČE O DUŠEVNÍ ZDRAVÍ MORAVSKOSLEZSKÉHO KRAJE

Analýza a vyhodnocení systému hodnocení a hodnotících kritérií Operačního programu Rozvoj lidských zdrojů OP RLZ ( ) Závěrečná zpráva

4.2 DŮVOD A CÍLE ŘEŠENÍ (VČETN Ě DOLOŽENÍ JEJICH MĚŘITELNOSTI):

POSTDOKTORANDŮ VYSOKOŠKOLSKÉHO ÚSTAVU PRO NANOMATERIÁLY, POKROČILÉ TECHNOLOGIE A INOVACE

Pravidla. používání Národního elektronického nástroje při realizaci zadávacích postupů prostřednictvím národního elektronického nástroje

TÉMA BAKALÁŘSKÉ PRÁCE

MĚSTO BENEŠOV. Rada města Benešov. Vnitřní předpis č. 16/2016. Směrnice k zadávání veřejných zakázek malého rozsahu. Čl. 1. Předmět úpravy a působnost

Celková částka pro tuto výzvu: Kč v rozdělení dle tabulky č.1

PRACOVIŠTĚ PRO DLOUHODOBÉ UCHOVÁVÁNÍ A ZPŘÍSTUPŇOVÁNÍ DOKUMENTŮ V DIGITÁLNÍ PODOBĚ NÁRODNÍ DIGITÁLNÍ ARCHIV

Český úřad zeměměřický a katastrální vydává podle 3 písm. d) zákona č. 359/1992 Sb., o zeměměřických a katastrálních orgánech, tyto pokyny:

SMLOUVA. Smlouva o poskytování služeb sociální péče

téma: Formuláře v MS Access

ZPRÁVA O ZAHÁJENÍ REALIZACE PROJEKTU (dále jako ZZRP ) OPERAČNÍHO PROGRAMU LIDSKÉ ZDROJE A ZAMĚSTNANOST

MOŽNOSTI POUŽITÍ ODKYSELOVACÍCH HMOT PŘI ÚPRAVĚ VODY

Otická knihovna. Knihovny vedly knihovní rady, které se volily a volily knihovníka. V roce 1937 to byla Růžena Vaculová.

Evropský proces přezkoumání účinných látek

VÝZVA K PODÁNÍ NABÍDEK DO VÝBĚROVÉHO ŘÍZENÍ ZADÁVACÍ PODMÍNKY

Transkript:

Výsledky dosažené v roce 2007 Řešitelské pracoviště MFF UK Podrobně jsou výsledky projektu dokumentovány na stránce http://ufal.mff.cuni.cz/rest. Stěžejním výstupem projektu bylo vydání monografie Průvodce Českým akademickým korpusem verze 1.0 doplněné CD-ROMem. V červnu hostil Ústav formální a aplikované lingvistiky MFF UK prestižní konferenci počítačové lingvistiky, a sice Association of Computational Linguistics Conference. Počet účastníků konference 1 100 se stal rekordním v celé historii konferencí zastřešovaných organizací ACL. Všichni členové řešitelského týmu se podíleli na organizaci této konference a zároveň zajišťovali publicitu Českému akademickému korpusu 1.0. Kanál ČT 24 České televize natočil během konference několik rozhovorů se členy pořadatelského ústavu. Mezi tázanými byl i Kiril Ribarov viz nahrávku http://lectures.ms.mff.cuni.cz/video/recordshow/index/25/66. Český akademický korpus Byla vydána první verze Českého akademického korpusu (ČAK 1.0) v nakladatelství Karolinum (ISBN: 978-80-246-1315-4) viz (Vidová Hladká, Hajič, Hana, Hlaváčová, Mírovský, Votrubec, 2007), http://ufal.mff.cuni.cz/rest/cac/cac_10.html, náklad 150ks Byla zahájena práce na druhé verzi ČAK. Pokračovalo se v syntaktických anotacích. Bohužel se nepodařilo získat potřebný počet anotátorů, čímž se anotování protáhlo do roku 2008. Byla zahájena příprava CD-ROM ČAK 2.0. Podobně jako CD-ROM ČAK 1.0, bude i druhé CD obsahovat složku datovou ČAK 2.0 a složku nástrojů. Budeme distribuovat aktuální verze nástrojů z předchozího CD a přidáme i některé další nástroje. Začleníme bonusové materiály elektronickou cvičebnici STYX a modul hlasového ovládání editoru TrEd TrEdVoice. Začleníme demosnímky k nástrojům s grafickým uživatelským rozhraním. Průvodce ČAK 2.0 bude procházet CD jak česky, tak i anglicky. ČAK 1.0 byl použit jako hlavní zdroj dat pro zápočtové příklady zadané na přednášce Úvod do strojového učení (v počítačové lingvistice) konané v ZS 2006/07 na MFF UK (přednášejí Hladká, Ribarov). Řešení zápočtových příkladů poskytlo spoustu cenných komentářů k anotacím ČAK 1.0. Nástroj pro lexikální anotaci LAW V průběhu celého roku se pracovalo na zapojení morfologického editoru SLED a morfologického analyzátoru (viz níže) do editoru LAW. Modifikace morfologického analyzátoru Původní modifikace morfologického analyzátoru založená na konečných automatech byla dokončena v roce 2006. Nicméně modifikace se nestala součástí CD- ROM ČAK 1.0, protože potřeboval ke své práci neúměrně mnoho paměti, čímž se stal pro běžné použití nepoužitelný. Na odstranění zásadního nedostatku se pracovalo v roce 2007 a analyzátor bude součastí CD-ROM ČAK 2.0. Nové metody tagování Bylo provedeno mnoho experimentů s kombinacemi různých taggerů a pravidel, z čehož vzešel zatím nejlepší výsledek (96,1 % na testovacích datech). Dále započala práce na "unsupervised" metodách značkování a pokusy s využitím čistě statistické klasifikace slov na základě jejich vzájemné informace. V prosinci byl oficiálně zveřejněn český morfologický tagger Morče verze 1.0 (http://ufal.mff.cuni.cz/morce) s úspěšností 95,5 % (případně 95,8% vývojová verze pro registrované). Videonahrávky Byly pořízeny záznamy z téměř všech přednášek konaných v rámci Semináře z formální lingvistiky pořádaného ÚFAL MFF UK. Každá nahrávka je k dispozici v několika formátech: Flash Video lze přehrávat on-line; H.264 MP4 kvalitnější on-line video, zatím jsme jedni z mála, kdo tento formát využívá; Xvid video ke stažení ve vyšší a nižší kvalitě; MP3 pouze audio; PDF poskytne-li přednášející svoji prezentaci. Byly zcela přepracovány webové stránky (http://lectures.ms.mff.cuni.cz) obsahující veškerý video materiál.

Publikace 1. Bauman Syd, Ribarov Kiril: Certain Aspects of Corpus Annotation Encoded using TEI P5, Springer, 2007. 2. Hajičová Eva, Cuřín Jan, Hajič Jan, Kučera Ondřej, Vidová-Hladká Barbora: Jazyk a umělá inteligence: kudy a kam?, Academia, 2007. 3. Hana Jirka: Lexical Annotation Workbench (LAW), Version 0.7.3, [http://www.ling.ohiostate.edu/~hana/law.html],univerzita Karlova, 2007. 4. Hlaváčová Jaroslava. Korpusové chyby. In Gramatika a korpus / Grammar & Corpora 2005. Prague, Czech Republic: ÚJČ AV ČR, 2007, pp. 77-86. 5. Hlaváčová Jaroslava. Pravopisné varianty a morfologická anotace korpusů. In Gramatika a korpus / Grammar & Corpora 2007. Prague, Czech Republic: Academia, 2007. 6. Mírovský Jiří, Panevová Jarmila. Learning to Search in Prague Dependency Treebank. In Gramatika a korpus / Grammar & Corpora 2007. Prague, Czech Republic: Academia, 2007. 7. Ribarov Kiril. Connected OCS Processing - Core Elements., Scripta & e-scripta, 2007, 5. 8. Smrž Otakar. Demo Proposal: Extensible Integrated Treebank Annotation Environment. In Proceedings of the 2nd Workshop on Computational Approaches to Arabic Script-based Languages. Stanford, California, USA: Linguistic Institute, 2007, pp. 152-155. 9. Smrž Otakar: ElixirFM, [http://sourceforge.net/projects/elixir-fm/], SourceForge.net, 2007. 10. Smrž Otakar. ElixirFM -- Implementation of Functional Arabic Morphology. In ACL 2007 Proceedings of the Workshop on Computational Approaches to Semitic Languages: Common Issues and Resources. Prague, Czech Republic: ACL, 2007, pp. 1-8. 11. Smrž Otakar. Functional Arabic Morphology. Formal System and Implementation.Ph.D. thesis., 2007, 104. 12. Smrž Otakar. Functional Arabic Morphology: Dissertation Summary., Prague Bulletin of Mathematical Linguistics, 2007, pp. 5-30. 13. Smrž Otakar, Hajič Jan: The Other Arabic Treebank: Prague Dependencies and Functions, CSLI Publications, 2007. 14. Vidová-Hladká Barbora, Hajič Jan, Hana Jiří, Hlaváčová Jaroslava, Mírovský Jiří, Votrubec Jan Czech Academic Corpus 1.0 Guide. Karolinum - Charles University Press, 2007. [http://ufal.mff.cuni.cz/rest/cac/cac_10.html] 15. Vidová-Hladká Barbora, Hana Jiří, Hajič Jan, Hlaváčová Jaroslava, Mírovský Jiří, Votrubec Jan: Czech Academic Corpus 1.0, Karolinum - Charles University Press, 2007. 16. Vidová Hladká Barbora, Keprt Michal. Videonahrávky přednášek. 2007. [http://lectures.ms.mff.cuni.cz/video/categoryshow/index/6]

Spoluřešitelské pracoviště ÚJČ AV ČR Všech dílčích cílů bylo dosaženo; zejména bylo otevřeno webové zpřístupnění jednak společné prezentace elektronizovaného Příručního slovníku jazyka českého (PSJČ) a rozsáhlého lexikálního archivu, jednak elektronické verze Jungmannova slovníku; proti předpokladu navíc bylo dokončeno skenování mikrofilmových kopií historických českých rukopisů, zahájeno skenování historických a již nedostupných ročníků časopisu Naše řeč a týmově bylo posíleno lemmatizování lexikálního archivu, jehož prezentaci již zajišťuje jiný projekt ÚJČ. Dosažené výsledky podle stupně důležitosti 1. PSJČ (Příruční slovník jazyka českého): dokončeny revize vnitřní konzistence, aplikovány systematické logické revize pro digitální verzi lexikálního archivu (http://bara.ujc.cas.cz/psjc) 2. Jungmannův slovník (Slownjk česko-německý Josefa Jungmanna): připravena první uživatelská verze prohlížení podle hesel a webový přístup (http://www.slownjk.cz) dokončena technická (obrazová) digitalizace autografu (rukopisu) zahájena technická (obrazová) digitalizace unikátního archivního tisku s autorovými poznámkami 3. Kottův slovník (Česko-německý slovník Františka Štěpána Kotta): k revidované elektronické verzi vytvořena databáze hesel a vyhledávací programy, dokončena uživatelská verze slovníku pro budoucí umístění na webu. 4. Trávníčkův slovník (Slovník jazyka českého Františka Trávníčka) dokončena uživatelská verze slovníku pro budoucí umístění na webu. 5. Frekvenční slovník 1961 (Frekvence slov, slovních druhů a tvarů v českém jazyce): provedena technická (obrazová) digitalizace. 6. Slovesa pro praxi: provedena kompletní digitalizace tištěného textu knižního vydání. 7. Naše řeč: zahájen projekt postupné digitalizace nejstarších ročníků časopisu. 8. České morfémy: zahájeny práce na databázi českých morfémů. 9. Slovní sítě: zahájeny práce na vytvoření databáze lingvistických informačních zdrojů včetně zobrazení hierarchických vztahů mezi lexikálními jednotkami pomocí síťových grafů. Detailní koordinace etap řešení projektu probíhala v souladu s harmonogramem v návrhu projektu, drobnější časové přesuny byly řešeny operativně. Publikované články v zahraničí J. Králík: Quantitative Linguistics within Czech Contexts. Exact Methods in the Study of Language and Text, Eds: R. Köhler, P. Grzybek, Quantitative Linguistics 62, Dedicated to Professor Gabriel Altmann on the occasion of his 75th birthday, Mouton de Gruyter Berlin New York 2007, QL 62, ISBN 978-3-11-019354-1, ISSN 0179-3616, p. 343-351 J. Králík L. Uhlířová: The Czech Academic Corpus (CAC), its history and presence. Journal of Quantitative Linguistics 14, Taylor & Francis 2007, ISSN 0929-6174, č. 2-3, s. 265-285 J. Králík: Contemplations on Corpus Infinity. 5th Trier Symposium on Quantitative Linguistics Abstracts, Universität Trier 2007, p. 9 A. Rangelova J. Králík: Wider Framework of the Research Plan Creation of a Lexical Database of the Czech Language of the Beginning of the 21st Century. In: Computer Treatment of Slavic and East European Languages, Fourth International Seminar Proceedings, Slovak National Corpus, Ľ. Štúr Institute of Linguistica, Slovak Academy of Science, eds.: J. Levická R. Garabík, Bratislava 2007, ISBN 978-80-87139-05-9, s. 209-217 Přednášky a prezentace v zahraničí A. Rangelova: Wider Framework of the Research Plan Creation of a Lexical Database of the Czech Language of the Beginning of the 21st Century. Fourth International Seminar Slovanské a východoeurópske jazyky v počítačovom spracovaní, Bratislava 25-27 October 2007

J. Králík: Contemplations of Corpus Infinity. 5th Trier Symposium on Quantitative Linguistics, Trier Dec 6-8, 2007 Přednášky v tuzemsku Na tuzemské mezinárodní konferenci Gramatika a korpus byla prezentována přednáška a připraven článek k publikaci: přednáška J. Klímová: Slovní sítě. 2. Mezinárodní konference Gramatika a korpus 2007, 25.-27. září 2007, Liblice u Prahy publikace J. Klímová: Slovní sítě. 2. Mezinárodní konference Gramatika a korpus 2007 anotace příspěvků, ÚJČ AV ČR, ISBN 8086496-35-X; plná verze v tisku 2nd International Konference Grammar & Corpora 2007 Abstracts Návrh postupu prací na rok 2008 Řešitelské pracoviště MFF UK Český akademický korpus vydání CD-ROM Český akademický korpus 2.0. CD-ROM vyjde u amerického vydavatelství Linguistic Data Consortium, s kterým máme již uzavřenou předběžnou smlouvu. automatická klasifikace detekovaných chybějících slov v ČAK 2.0 s výhledem na přičlenění ČAK k PDT implementace skriptu tool_chain pro tokenizaci a morfologickou analýzu a tagování a parsování coby webové aplikace Nástroj pro lexikální anotaci zapracování slovníku SLED a morfologického analyzátoru Modifikace morfologického analyzátoru dokončení vývoje morfologického analyzátoru včetně guessru ladění SLED dle zpětné vazby od uživatelů Nové metody tagování modifikace perceptronového taggeru na prosodický tagger pro aplikace TTS kombinace perceptronového modelu s ručně navrženými pravidly Videonahrávky pokračování v nahrávánít Alternativní způsob získávání anotovaných dat Pilotní projekt v získávání anotovaných dat prostřednictvím webových her, při kterém využijeme potenciálu internetových uživatelů, kteří se chtějí převážně bavit.

Spoluřešitelské pracoviště ÚJČ AV ČR V duchu operativní úpravy původního harmonogramu, podle kterého projekt v roce 2008 končí, se předpokládá: a/ dokončení a uzavření prací na datových zdrojích (zejm. elektronické verze slovníků a speciální databáze slovních sítí a morfémů) b/ webová prezentace dokončených prací (nástroje k prezentaci dat sub a/) c/ dokončení pilotní podoby dílčích projektů Naše řeč (postupná digitalizace nejstarších ročníků časopisu), České morfémy (založení databáze českých morfémů) a Slovní sítě (založení databáze lingvistických informačních zdrojů včetně zobrazení hierarchických vztahů mezi lexikálními jednotkami pomocí síťových grafů). d/ plné převedení dlouhodobých prací (zejm. lemmatizace elektronické obrazové podoby lexikálního archivu) do rámce navazujících projektů