ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost 2005 1ET101120413



Podobné dokumenty
Výsledky dosažené v roce 2007

Výnos děkanky FF UHK č. 3/2016

ZÁVĚREČNÁ ZPRÁVA PROJEKTU SPECIFICKÉHO VÝZKUMU NA ROK 2012 ZAKÁZKA Č Název projektu: Mediální výchova v současné rodině vize či realita?

Směrnice děkana č. 1/2016 pro metodické hodnocení studentů doktorských studijních programů na ČVUT FD

K úkolům výzkumného záměru Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století 1

ve strojovém překladu

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Závěrečná zpráva o výsledcích řešení projektu v rámci rozvojových program MŠMT na rok 2006

České vysoké učení technické v Praze SGS ČVUT 2015 Číslo grantu: SGS15/097/OHK1/1T/15 Číslo FIS: E000. Závěrečná zpráva

Zpráva o řešení projektu rozvojového programu 2d/2004 č. 239

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Závěrečná zpráva projektu specifického výzkumu zakázka č. 2106

ZÁVĚRY z 6. jednání konaného dne ve VÚVeL

Michal Oškera (50854)

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2009

Rozvojový projekt na rok 2011

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Strukturovaný životopis

Informace o Radě FZÚ AV ČR v. v. i. pro výroční zprávu o činnosti a hospodaření za rok 2009

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Kvantifikovaná kriteria pro habilitační řízení a řízení ke jmenování profesorem na FEM

Výnos děkanky FF UHK č. 2/2016

Pravidla grantové soutěže a výběrového řízení

Strojové učení a pravidla pro extrakci informací z textů

Jan Papež Charles University in Prague Chapter of SIAM 1 / 12

Doktorské studium oboru Fyzická geografie a geoekologie

Vnitřní normy Fakulty technologické Univerzity Tomáše Bati ve Zlíně

Aktualizace dlouhodobého záměru FTK UP na rok 2011

XLIII. zasedání Akademického sněmu Akademie věd České republiky. Praha 12. prosince Bod programu: 3

Fond rozvoje vysokých škol Tématický okruh G

K vývoji aktivit v organizaci výzkumu

1. Děkan PřF UHK vyhlašuje soutěž na projekty specifického výzkumu pro rok 2013.

Směrnice děkana č. 21/2013 KRITÉRIA HABILITAČNÍHO A JMENOVACÍHO ŘÍZENÍ NA PEDAGOGICKÉ FAKULTĚ OSTRAVSKÉ UNIVERZITY V OSTRAVĚ

Výroční zpráva projektu specifického výzkumu v roce 2015, zakázka č. 2115

Harmonogram požadavků vyplývajících z obecných pokynů aplikovaný ČNB

Závěrečná zpráva projektu FRVŠ 678/2012/F1/a: Číslo projektu: 678/2012. Tematický okruh a specifikace: F1/a. Řešitel: Doc., Ing. Václav Hrazdil, CSc.

Rozvojový projekt na rok 2007

Podporováno Technologickou agenturou České republiky, projekt TE

Zpráva o přípravě a realizaci hlavního šetření PISA 2018

Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.

i) Slezská univerzita v Opavě

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Vnitřní předpis Ostravské univerzity ZÁSADY PRO HABILITAČNÍ ŘÍZENÍ A ŘÍZENÍ KE JMENOVÁNÍ PROFESOREM OSTRAVSKÉ UNIVERZITY

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Čl. 1. Základní ustanovení

Vyhodnocení koncepce rozvoje výzkumné činnosti FIS VŠE za rok 2017

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Cestovní náhrady Výdaje na drobný hmotný povinných zákonných odvodů celkem

Rozhodnutí děkana č. 1/2017

VYHLÁŠENÍ STUDENTSKÉ GRANTOVÉ SOUTĚŽE TUL PRO ROK Čl. 1 Základní ustanovení

Fond rozvoje vysokých škol okruh G

Informační systém pro centrální správu lokální sítě a služeb ISP

Ročníkový projekt DYNAMICKÉ HTML. Projektová dokumentace. Jan Ehrlich, Petr Marek, Tomáš Marván, Martin Paľo. Vedoucí projektu: RNDr.

Pro rok 2017 byly vedením stanoveny následující cíle:

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Návrh rozpočtu Ústavu pro soudobé dějiny AV ČR, v. v. i., na rok 2018 a jeho střednědobý výhled na roky 2019 a 2020

Pravidla studentské grantové soutěže. Fakulty přírodovědně-humanitní a pedagogické Technické univerzity v Liberci. pro rok 2014

prof. Ing. Zdeněk Plíva, Ph.D. děkan Mgr. Tereza Stejskalová právník doc. Ing. Zbyněk Koldovský, Ph.D. proděkan 31.5.

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Směrnice Akademické rady Akademie věd ČR č. 7

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Rozvojový projekt na rok 2013 SIT-F: KOORDINOVANÝ ROZVOJ IS SÍTĚ ŠKOL

Hodnocení ISO pro rok 2017/18

POKYNY K VYPLŇOVÁNÍ GRANTOVÝCH ŽÁDOSTÍ V ROCE 2015

Zadávací dokumentace Interní grantové agentury Technické fakulty Základní informace a vymezení pojmů

Soulad studijního programu. Aplikovaná informatika

PODPORA INTERNÍCH VĚDECKÝCH A TVŮRČÍCH PROJEKTŮ NA PRACOVIŠTÍCH PF UJEP

Doktorský studijní obor Didaktika literatury. 1 Organizace doktorského studijního oboru Didaktika literatury

Specifický výzkum - závěrečná zpráva

Inovace a nové technologie

Návrh rozpočtu Ústavu pro soudobé dějiny AV ČR, v. v. i., na rok 2019 a jeho střednědobý výhled na roky 2020 a 2021

Soutěž o projekty Specifického výzkumu prováděného studenty (IGA) na PF UP

Rozvojový projekt na rok 2008

Výroční zpráva projektu specifického výzkumu v roce 2015 zakázka č Speciální typy matic a jejich souvislost s celočíselnými posloupnostmi

rozpočet na kalendářní rok a střednědobý výhled rozpočtu na nejméně dva další

KRITÉRIA UPLATŇOVANÁ PŘI HABILITAČNÍM ŘÍZENÍ A ŘÍZENÍ KE JMENO- VÁNÍ PROFESOREM NA VYSOKÉ ŠKOLE EKONOMICKÉ V PRAZE

Přílohy. Seznam příloh k závěrečné zprávě o řešení projektu 1N04138

MÚA Počet Počet Počet nově 1) Forma vědeckého vzdělávání

Vyhláška děkana FAV 6D/2017

Zpráva o činnosti poradny za rok Pobočka Pardubice- KONZULTACE JEDNOTLIVÉ MĚSÍCE

ROČNÍ ZPRÁVA (2005) dle vyhlášky č. 323/2005 Sb.

Tomáš Klimek, Referát Manuscriptorium, NKČR Olga Čiperová, AiP Beroun s.r.o.

prof. Ing. Zdeněk Plíva, Ph.D. děkan Mgr. Michal Prokop právník doc. Ing. Zbyněk Koldovský, Ph.D. proděkan 24.8.

NÁZEV HABILITAČNÍ PRÁCE: Využití diskriminační analýzy pro predikci budoucího vývoje firmy

Specifický výzkum 2018

Přehled použitých výrazů a zkratek

Ústav sociální práce

Instalace a první spuštění programu.

Interní směrnice pro publikování vědeckých výsledků výzkumnými pracovníky SLÚ AV ČR, v. v. i.

SPECIFICKÉ OPATŘENÍ DĚKANA FAKULTY VOJENSKÉHO ZDRAVOTNICTVÍ UNIVERZITY OBRANY K HABILITAČNÍM ŘÍZENÍM A ŘÍZENÍM KE JMENOVÁNÍ PROFESOREM

Vyhodnocení výsledků dosažených z účelové podpory na specifický vysokoškolský výzkum prováděný v roce 2013 na Vysoké škole finanční a správní

Směrnice děkana č. 1/2012 Habilitační řízení a řízení ke jmenování profesorem na Fakultě sportovních studií MU (ve znění účinném od 1. 4.

VÝVOJ ZÁVĚREČNÝCH ZKOUŠEK V UČEBNÍCH OBORECH, ANEB SITUAČNÍ ZPRÁVA A VÝHLED DO BUDOUCNA

ZÁSADY STUDENTSKÉ GRANTOVÉ SOUTĚŽE NA PODPORU PROJEKTŮ SPECIFICKÉHO VYSOKOŠKOLSKÉHO VÝZKUMU NA ROK 2016

Informace pro studenty doktorského studijního programu obecná jazykověda a teorie komunikace (OJTK)

Doktorské studium na FPH VŠE. Martin Lukeš proděkan pro vědu, výzkum a doktorské studium

Hospodaření s veřejnými prostředky poskytovanými na účelovou a institucionální podporu výzkumu a vývoje

Transkript:

Národní 3, 117 20 Praha 1 List PT1 ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost Rok Identifikační kód projektu 2005 1ET101120413 01 Řešitel projektu Jméno: Mgr. Barbora Vidová Hladká, PhD. 02 Příjemce 1 Název: Univerzita Karlova v Praze Název projektu: Data a nástroje pro informační systémy Doba řešení: 1.7.2004 31.12.2008 Splnění cílů projektu * není ohroženo je ohroženo Datum: 13.1.2006 Podpis řešitele: Podpis a razítko statutárního zástupce Příjemce 1: * vhodnou odpověď zaškrtněte 1

pokračování listu PT1 03 Přehled uplatněných výsledků za rok 2005 Aplikace * 2 Publikace v recenzovaných časopisech Ostatní publikace publikované 1 ks publikované 4 ks přijaté k publikaci 3 ks přijaté k publikaci 0 ks Patenty udělené 0 ks podané 0 ks Jiný (specifikovat) 0 * / Podrobnější informace o formě aplikací uveďte v textové části zprávy. 2

1ET101120413 List PT2 AKADEMIE VĚD ČR ZPRÁVA O PRŮBĚHU PRACÍ V ROCE 2005 na programovém projektu Informační společnost Podrobně jsou výsledky projektu dokumentovány na stránce http://ufal.mff.cuni.cz/rest. Anotační nástroj LAW a implementace perceptronového taggeru jsou aplikačními výstupy projektu. Řešitelské pracoviště MFF UK Český akademický korpus Proběhla revize diskrepancí ručních korektur, včetně ručního dořešení zbylých nesrovnalosti. Hlavním formátem Pražského závislostního korpusu se stal tzv. Prague Markup Language (PML), který podporuje koncepci odděleného uložení anotací jednotlivých rovin anotování. Abychom kontinuálně zajistili kompatibilitu ČAK s PZK, provedli jsme konverzi Korpusu do formátu PML. Dle původního plánu měla být první verze Korpusu vydána na konci roku 2005. Vzhledem k neplánované konverzi vnitřního formátu byla kontrola morfologických anotací zahájena později, a tudíž se protáhla do začátku roku 2006. Paralelně s přípravou ČAK 1.0 byla navržena konverzní procedura syntakticko-analytických anotací. Na specifikaci konverzní procedury se podíleli také kolegové z ÚJČ. Práce na ČAK odčerpaly 38% prostředků OON. Nástroj pro lexikální anotaci Anotační nástroj LAW (současná verze 0.6.0) je testován v rámci dvou anotačních projektů: morfologické anotování části testovacích dat paralelního česko-anglického korpusu PCEDT a zjednoznačňování nejednoznačných hodnot vybraných morfologických kategorií na datech z PDT 2.0. Aktuálně jsou zapracovávány podněty od anotátorů. Na vývoj nástroje bylo spotřebováno 22% prostředků OON a na jeho testování 35%. Modifikace morfologického analyzátoru Nový morfologický analyzátor založený na konečných automatech je téměř dokončen. Jeho úplné dokončení se oproti plánu poněkud opozdilo, ale zkušební provoz bude zahájen během několika týdnů. Byl dokončen editor pro morfologický slovník (SLED), který navíc kromě editorských funkcí dokáže "odhadovat" vzory nově zadávaných lemmat. Jeho praktické použití je vázané na zpracování dat pro morfologický analyzátor. Začali jsme s vývojem nového "guesseru", nástroje, který dokáže určit lemma a morfologickou značku neznámého slova. Prvním krokem byla automatická analýza slov z ČNK, jejímž cílem bylo sestavení seznamu nových "předpon" užívaných při vytváření novotvarů v češtině. Nové metody tagování Jedna z nejnovějších metod korpusového modelování tzv. průměrovaný perceptron Michaela Collinse (publikováno 2002) byla implementována pro potřeby tagování češtiny v rámci studentského projektu Morče oceněno druhým místem v ACM Student Research Competition 2005. Úspěšnost algoritmu závisí především na zvolené sadě rysů popisujících kontext, na jehož základě se značky (tagy) vybírají. Proto na studentský projekt navazovala diplomová práce, která v rámci daných možností důkladně mapovala možné sady rysů, jejich úspěšnosti a vztahy mezi nimi. Přetrénování tohoto taggerů, HMM taggeru a exponenciálního taggeru nemohlo být uskutečněno vzhledem k nedokončené kontrole dat (viz výše). Čerpaní investičních prostředků je specifikováno ve finančním výkazu. Cestovní náklady byly odčerpány na zahraniční letní školy Machine Learning Summer School, Chicago, květen, Ribarov, Smrž, Vidová Hladká; ESSLLI, Edinburgh, červenec, Mírovský - a na účast na konferenci TLT, Barcelona, prosinec, Vidová Hladká (další ročník konference TLT v roce 2006 bude hostit ÚFAL MFF UK). V položce služby bylo hrazeno ADSL připojení, konverze vnitřního formátu dat a oprava počítačů. V položkách DHM a NHM činily největší položky nákupy tiskárny a 2 LCD panelů. Ve změnovém listu A/4 uvádíme kompletní personální obsazení projektu pro rok 2006. 3

Spoluřešitelské pracoviště ÚJČ AV ČR vytvořen základ kompletní elektronizace dat historického Česko-německého slovníku Fr. Št. Kotta (1878-1906, 10 204 stran, ~ 250 000 hesel) včetně skenování, obnovy historických knižních vazeb a elektronizace textové podoby, vypracovány softwarové nástroje a za jejich pomoci dokončena první etapa textových korektur vytvořena elektronická podoba Lexikálního standardu ÚJČ (1970, 1000 stran) včetně nástrojů pro automatické i věcné revize elektronické podoby dat a jejich vnitřní konzistence vytvořena elektronická báze kompletních heslářů PSJČ, SSJČ, SSČ, SSJ-jména, Lex. standard a FSČ a vypracovány softwarové nástroje pro jejich konfrontaci a lexikografické využití vytvořeny automatické nástroje pro revizi vnitřní konzistence elektronické podoby všech textových dat PSJČ (elektronická podoba pořízena již dříve) dokončena statisticky využitelná verze ČAK (softwarová úprava prohlížeče, pracovní frekvenční slovník tvarů aj.) souběžně probíhaly expertní a pomocné práce pro elektronizaci lexikálního archivu ÚJČ (zajišťuje jiný projekt ÚJČ) spoluřešitelé se účastnili spolupráce na projektu a přípravě dat pro lexikální databázi ÚJČ Z rezervy věcných prostředků byl pořízen nákup odborné literatury a zdrojů pro lexikální excerpci. Z investičních prostředků bylo obnoveno vybavení třemi počítači (dosud užívané PC z inventáře ÚJČ odepsány). Cestovní náklady byly čerpány na zahraniční cesty (Novi Sad účast na konferenci (referát Uhlířová), Budapešť příprava dat trojjazyčného slovníku (Králík), Graz příprava konference kvantitativní lingvistiky (Králík), Moskva konzultační pobyt (Rangelova) a na účast na domácích konferencích (Gramatika a korpus (referát Uhlířová, Klímová, Holubová), Slovní poklad češtiny (referát Králík, referát Klímová, referát Holubová)). Publikace (za celý projekt) Hladká B, Králík J.: Český akademický korpus mezi dvěma tisíciletími. Slovo a slovesnost, přijato k tisku, 2006. Hlaváčová J.: Average Reduced Frequency. 2o Coloquio de Ling Comp, Mexico City, Mexiko, 2005. Hlaváčová J:. Korpusové chyby. Ve Sborník konference Gramatika a korpus, s. 22-24, ÚJČ AV, Praha, ČR, 2005. Hlaváčová J.: Orwell's 1984 - playing with Czech and Slovak versions. Ve Sborník konference SLOVKO, v tisku, 2005. Králík J., Uhlířová L.: The Czech Academic Corpus (CAC), its history and presence, Journal of Quantitative Linguistics, přijato k tisku, 2006. Spousta M.: Automatické přiřazování tvaroslovných tvarů v češtině. Diplomová práce, MFF UK, 2005. Urrea A. M.; Hlaváčová J.: Automatic Recognition of Czech Derivational Prefixes, In LNCS/Lecture Notes in Artificial Intelligence/Proceedings of the 6th International Conference CICLing, pp. 189-197 (eds. Alexander Gelbukh), Mexico City, Mexico, Feb. 13-19, 2005. Votrubec, J.: Volba vhodné sady rysů pro morfologické značkování češtiny. Diplomová práce, MFF UK, 2005. 4

1ET101120413 List PT3 AKADEMIE VĚD ČR PROGRAM PRACÍ NA ROK 2006 na programovém projektu Informační společnost Řešitelské pracoviště MFF UK Český akademický korpus Vydání CD ROM ČAK 1.0 o duben 2006, nakladatelství Karolinum o náklad 150ks brožurka s CD ROM o obsah CD ROM data/ # ČAK 1.0 pml/ # data ve formátu PML (w-soubory, m-soubory) csts/ # data ve formátu CSTS doc/ # průvodce ČAK tools/ # nástroje Bonito/ # pro vyhledávání v Korpusu LAW/ # pro anotování Morphology/ # pro morfologickou analýzu a tagování Konverze syntakticko-analytických anotací. Konverzní procedura bude aplikována nejdříve na vybranou část Korpusu, která bude následně předložena zkušenému anotátorovi. Anotátor data opraví a poskytne podklady pro vylepšení konverzní procedury. Podle charakteru připomínek bude zvolena strategie dalšího zpracování s ohledem na poměr ruční práce a možnosti automatizace. Nástroj pro lexikální anotaci podpora PML formátu zapracování možností pro libovolné lexikální anotování zpracování vstupního textu parsery na vyžádání zapracovávání aktuálních připomínek anotátorů Modifikace morfologického analyzátoru doplnění morfologického analyzátoru o guesser testování editoru SLED během anotování nástroje LAW ladění dle zpětné vazby od uživatelů Nové metody tagování přetrénování taggerů na ČAK 1.0 vyhodnocení a porovnání úspěšností aplikace perceptronového modelu tagování na arabské texty kombinace perceptronového modelu s ručně navrženými pravidly Plán. Pracoviště za spoluúčasti několika projektů vybudovalo základ 64-bitového výpočetního clusteru, který postupně přejímá veškeré výpočetně náročné procesy. Provedeme buď upgrade dvou uzlů tohoto výpočetního clusteru, nebo pořídíme jeden nový uzel clusteru. 5

Plán OON Většina prostředků je plánována na práci s ČAK (vydání CD ROM, konverze syntaktickoanalytických anotací). Dále budou prostředky určeny na další vývoj a testování anotačního nástroje LAW. Spoluřešitelské pracoviště ÚJČ AV ČR Data dokončit kompletní elektronizaci dat (textové korektury) historického Českoněmeckého slovníku Fr. Št. Kotta vypracovat koncepci elektronizace dalších základních (historických) slovníků češtiny a zahájit jejich skenování připravit první testovací verzi trojjazyčného slovníku anglicko-česko-maďarského využít ke kvantitativní exploataci CD verzi ČAK Nástroje interně (na CD) uživatelsky zpřístupnit data historického Česko-německého slovníku Fr. Št. Kotta vytvořit softwarové nástroje pro automatickou revizi OCR a vnitřní konzistence textových dat Jungmannova slovníku nalézt, adaptovat a aplikovat vhodný software pro doplňování rozsáhlé databáze lexikálního archivu ÚJČ Plánované zahraniční cesty ústav MTI Budapešť (dlouhodobá spolupráce) universita Tallin (konference kvantitativní lingvistiky) universita Trevír (dlouhodobá spolupráce) 6