CKL. Centrum. lingvistiky. Projekt MŠMT M MT LC536 (LC05) Univerzita Karlova v Praze, ÚFAL MFF. Masarykova Univerzita Brno, FI

Podobné dokumenty
Řečové technologie pomáhají překonávat bariéry

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Příloha č. 1 Návrh Projektu velké infrastruktury schválený vládou

Mzdy na ÚFALu

Úvod do praxe stínového řečníka. Úvod

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

Common Language Resources and Their Applications

Strukturovaný životopis

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY

NLP & strojové učení

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

OP RLZ a JPD 3. Prezentace vybraných výsledků evaluace. RNDr. Martina Hartlová HOPE-E.S.,v.o.s., E.S.,v.o.s., divize EUservis.cz 8.12.

Životopis Duben 2008

Speciální struktury číslicových systémů ASN P12

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Podpora V&V v regionech v 7. RP REGIONY ZNALOSTÍ, VÝZKUMNÝ POTENCIÁL

Podporováno Technologickou agenturou České republiky, projekt TE

projektu rozvoje MA21 Petr Pavelčík Městský


OP Výzkum a vývoj pro inovace

Umělá inteligence pro zpracování obrazu a zvuku

adovaná Úmluvou o právech osob se zdravotním m postižen ský,, 2012

Datová věda (Data Science) akademický navazující magisterský program

OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie

Regionáln. lní informace idaná hodnota katalogu krajské knihovny. v Kladně

lní fond a jeho ití pro Českou republiku

Každá škola (včetně té, která je koordinující) uvede charakteristiku té části projektu, kterou řeší, v následující tabulce:

1. Děkan PřF UHK vyhlašuje soutěž na projekty specifického výzkumu pro rok 2013.

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

MANAGEMENT MOBILITY CENTRUM DOPRAVNÍHO VÝZKUMU

Cloudy a gridy v národní einfrastruktuře

ŘEČOVÉ TECHNOLOGIE v PRAXI

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Řečové technologie na Katedře kybernetiky FAV ZČU v Plzni. Katedra kybernetiky. Fakulta aplikovaných věd. Západočeská univerzita v Plzni

Název prezentace Michal Krátký

Představení projektu a řešitelského týmu

Petrovice. Jana Dynybilová,, DiS. Praha-Petrovice. Petrovice

NEWTON Technologies a.s. Jaroslava Schmidtová Project manager

Interní grantová agentura AF MENDELU Individuální doktorské projekty Formuláře platné pro rok 2015

Agronomická fakulta MENDELU řeší projekty OP VK

Cílová skupina: OSOBY SPOLEČENSKY NEPŘIZPŮSOBENÉ

Výukový materiál zpracován v rámci projektu EU peníze školám

Prohloubení spolupráce VŠ v oblasti řízení kvality technického vzdělávání dle potřeb společnosti a znalostní ekonomiky

ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost ET

EDNÍ ŠKOLA TECHNICKÁ Ž

Soulad studijního programu. Aplikovaná informatika

Zásady studentské grantové soutěže. Článek 1 Interní grantová agentura

Kulatý stůl. tní podporu VaVaI. 20. února 2008 Liblice

ÚSTAV ROMÁNSKÝCH STUDIÍ. Hispanistika urs.ff.cuni.cz

Akvizice knihoven ČVUT

Studijní program je těsně vázán na vědeckou činnost Katedry experimentální fyziky PřF UP či praxí Forma studia

NEWTON Technologies a.s.

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Výzkum a vývoj v rezortu dopravy

Spolupráce mezi hospodářskou sférou a vědou, příležitosti a bariéry. Pavel Němeček Technická univerzita v Liberci

MetaCentrum. Martin Kuba CESNET

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Rekonstrukce standardizovaného textu z mluvené řeči

ve strojovém překladu

Název prezentace Michal Krátký

SPOLUPRÁCE UNIVERZIT V ELEARNINGU


Informace pro studenty doktorského studijního programu obecná jazykověda a teorie komunikace (OJTK)

Název prezentace Michal Krátký

Okno do praxe 2009, Olomouc. Mgr.Tomáš. SVĚTNICKÝ personáln

Seminář k problematice spolupráce v OP VK 2.4

Vnitřní normy Fakulty technologické Univerzity Tomáše Bati ve Zlíně

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Sociální síť informatiků v regionech České republiky

Rozvoj informační společnosti v centrální i územní veřejné správě IOP

lní informace Kanceláře Tomáš Grantová agentura ČR

bezbariérov na

OZNÁMENÍ REKTORKY č. 8/2013

CŽV na FI, Telč Celoživotní vzdělávání na Fakultě informatiky MU

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

VYTRVEJ! Operační program: Rozvoj lidských zdrojů Priorita 3: Rozvoj celoživotn. ení. zeních a rozvoj. Program podpory: Zlepšen

Zkvalitňov prostřednictv. ednictvím m Evropského lního fondu v letech Mgr. Barbora Hoškov. ková

Generační změna IT MZe

Cíle projektu a informace pro katedry. Brada (KIV),

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Informace o přípravě nového programového období

Den vědy na FIT VUT v Brně Ph.D. studium

Rozvojový projekt na rok 2007

Synergické efekty VaVpI projektů na VŠB-TU Ostrava


MetaCentrum. Tomáš Rebok MetaCentrum NGI, CESNET z.s.p.o. CERIT-SC, Masarykova Univerzita Olomouc,

Výnos děkanky FF UHK č. 2/2016

Možnosti účasti MSP v projektech EU. Miloslav Špunda

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Pavel Cenek, Aleš Horák

Tematický operační program Výzkum, vývoj a vzdělávání (OP VVV) a jeho příprava na Vysokém učení technickém

Výsledky dosažené v roce 2007

Portál IT komunity v ČR Kamil Matoušek, Jiří Kubalík ČVUT Praha

SYLABUS KURZU ČESKÁ I EVROPSKÁ LEGISLATIVA VAV VČETNĚ OCHRANY DUŠEVNÍHO VLASTNICTVÍ

Rozvojový projekt na rok 2014

Způsob nakládání s výsledky VaVaI společnosti

Téma doktorských prací pro akademický rok 2018/2019. Pavel Novotný

P 7310 Filologie SLOVANSKÉ LITERATURY

Transkript:

CKL --- Centrum komputační lingvistiky Projekt MŠMT M MT LC536 (LC05) Univerzita Karlova v Praze, ÚFAL MFF Západočeská univerzita Plzeň,, KKY FAV Masarykova Univerzita Brno, FI Ústav pro jazyk český AV ČR R Praha http://www.centrumkomputacnilingvistiky.cz

Program kontroly na pracovišti 12.5.2009 MFF UK, Malostranské nám. 25 Posluchárna S9, 1. patro 8:30-9:20 Prezentace Centra (J. Hajič) 9:20-9:50 Diskuse 9:50-10:15 Prohlídka pracoviště a výpočetn etních kapacit 10:15-10:30 Zápis Z a závěrz lingvistiky (LC536) 2

Projekt Centra Cíl: integrovat statisticko-matematickou, počíta tačovou a lingvistickou složku výzkumu integrovat výzkum mluvené řeči i a zpracování jazyka vytvořit anotovaná data vytvořit nástroje n (významové) ) analýzy a syntézy integrovat lexikáln lní zdroje vč. v. software lingvistiky (LC536) 3

Kontext vzniku Centra Dříve: lingvistiky (program MŠMT M MT LN), 2000-2004 2004 UK, ÚJČ,, ZČUZ Nyní: : lingvistiky (opět) základnz kladní výzkum, program MŠMT M MT LC05 k existujícím m partnerům m přibyla p Fakulta informatiky MU Brno (Laboratoř NLP) lingvistiky (LC536) 4

lingvistiky: personáln lní obsazení Rozpočet a doba řešení 53,6 mil. Kč, K, 2005-2009 2009 (4 roky 9 měs.) Personáln lní obsazení (2009): 1 řešitel-koordinátor (prof.) Dále: 7 řešitelů a garantů (3x prof., 4x doc.) 9 mladých věd. v pracovníků (Ph.D.) Z toho 8 obhájilo v době zaměstn stnání v CKL 24 doktorandů (Mgr., Ing., RNDr.) lingvistiky (LC536) 5

Pracoviště (1) UK Praha (ÚFAL( MFF) vytvářen ení jazykových dat teoretický výzkum jazyka i metod zpracování SW nástroje n pro analýzu a syntézu ZČU U Plzeň,, KKY FAV analýza a syntéza mluvené řeči, zejm. akustika tvorba dat (transkripce, anotace) lingvistiky (LC536) 6

Pracoviště (2) MU Brno, FI, NLP laboratoř lexikáln lní nástroje lexikáln lní databáze: definice, správa, využit ití ÚJČ AV ČR elektronizace historických lexikáln lních dat spolupráce na definici lexikáln lní databáze lingvistiky (LC536) 7

Koordinace a komunikace Neformáln lní i formáln lní schůzky Rada Centra Jednou ročně Představení projektu pro širší veřejnost ejnost Naposledy 22.5.2008, Praha Spolupráce v rámci r projektů EU / USA Obhajoby doktorských prací,, rigorózn zní zk. lingvistiky (LC536) 8

Rok 2005 Zahájen jení práce v Centru (Až) ) 1.4.2005 - překlenutí ze zdrojů instituce Změna názvu n (tradice, návaznost) n Redukovaný rozpočet na cca ¾: : 7,0 mil. KčK Pořízen zení investic (výpočetn etní stroje - budoucí výpočetn etní cluster) - cca 1,7 mil. KčK Rozdělen lení studentů a prací mezi projekty Žádosti o evropský projekt (několik) lingvistiky (LC536) 9

Rok 2006 První ucelený rok práce Dokončen ení projektu PDT 2.0 (UK, vyd.. v USA) Projekt Rekonstrukce řeči (UK, specifikace) Práce na slovnících ch (UK, MU) Mluvená řeč analýza, syntéza (hl. ZČU) Z IR CLEF testovací kolekce, mez. soutěž ěž,, 1. část Digitalizace hist.. zdrojů (ÚJČ) Spol. mez. projekt EU (IP): UK, ZČUZ Další zahr.. spolupráce: EU, USA 40 výsledků v RIV lingvistiky (LC536) 10

Polovina projektu Rok 2007 Lexikáln lní zdroje (UK, MU + ÚJČ) Důraz na češtinu i angličtinu (noví pracovníci ci v týmu) Specifikace anotace, anotační software, anotace dat na všech v rovinách (ZČU, UK) Integrace mluvené řeči i a zpracování jazyka (UK, ZČU) Z Nástroje pro aut. analýzu a syntézu jazyka Mluvená řeč i psaný jazyk (UK, MU, ZČU) Z Pokračov ování mez. spolupráce EU (3 projekty 6.RP: UK, UK+ZČU), U), USA (UK, UK+ZČU) U) Organizace celosvět.. konference ACL 1000 úč.. (UK) 66 výsledků v RIV (16 čas., 39 sb., 5 SW/data atd.) lingvistiky (LC536) 11

Upravené cíle Rok 2008 Lexikáln lní zdroje (MU, UK, ÚJČ) Softwarové lexikáln lní nástroje Sémantika (rozp( rozp.. plagiátů: : MU), analýza morf., synt., sém.. (UK, MU), generování (UK) Nové algoritmy rozpoznávání řeči Prozodie, jaz.. modelování,, rekonstrukce řeči Získávání další ších jazykových dat, korpusové nástroje Anotace dat a výzkum pro strojový překladp Platforma TectoMT pro strojový překladp Teoretická formáln lní lingvistika, užitu ití jazyka Výsledky (RIV): 64, 13 čl., 32 sb., 5 knih, 5 SW aj. lingvistiky (LC536) 12

UK v Praze MFF, ÚFAL Rozvoj PDT 2.0 Formalizace obsahu sdělen lení (teoret.. výzkum + anotace) teoreticko-empirický empirický výzkum (př.: diskurs) Anotace mluvených dat (rekonstrukce řeči) Nové metody morf. disambiguace,, anotace ČNK Generování češtiny, angličtiny z formáln lního zápisuz Dialogové systémy integrace porozumění jazyku Výsledky budou využity pro EU IP Companions Information retrieval data a aut. Zpracování Strojový překlad p - nástroje a data lingvistiky (LC536) 13

ZČU U Plzeň FAV, Kat. kybernetiky Rozpoznávání řeči Parametrizace signálu Akustické a jazykové modely Syntéza řeči Prozodické chrakteristiky (ARTIC) Data-driven (statistické) ) metody modelování IR (mluvená data) Vývoj testovací kolekce Spolupráce s UK (vč.. projektů Companions,, Malach) lingvistiky (LC536) 14

MU Brno FI, Laboratoř zpracování přirozeného jazyka Lexikáln lní nástroje a zdroje (spol. s ÚJČ) Platforma DEB II Lexikografická stanice Praled,, s ÚJČ Verbalex WordNet rozší šíření (29 tis. položek) Analýza češtiny Morfologie (derivace), desambiguace SYNT (synt( synt.. analyzátor), anafora Sémantické vztahy lingvistiky (LC536) 15

ÚJČ AV ČR Lexikáln lní zdroje Vývoj lexikograf. stanice Praled (s MU Brno) dokončeno 3,500 položek databáze Digitalizace archívu (s UK) Skenování, identifikace excerpt cca 4,000,000 celkem (do konce projektu) Nyní: : 1,2 mil. identifikováno no lingvistiky (LC536) 16

Dosažen ené výsledky Souhrn RIV 2005-2007 2007 138 (unikátn tních) záznamz znamů 166 celkem (->( > spol. publikace) 64 v roce 2008 Většina: články ve sbornících ch konferencí Obvyklé schéma v oboru komputační lingvistiky workshop (specializované) ) / konference (obecnější ší) Některé časopisy (původn vodní,, ale spíš íše e souhrnné výsledky) LNCS, IEEE Transactions,, LRE Software a data: důraz d na open source lingvistiky (LC536) 17

Nejcennější výsledky - publikace Články Semi-supervised POS tagging (EACL 2009) Nejlepší dosud dosažen ené výsledky i pro angličtinu Extension of HVS Semantic Parser by Allowing Left-Right Branching (ICASSP 2008) Nový výsledek navazující na práci S. Younga Large-scale Semantic Networks: Annotation and Evaluation Kniha NAACL 2009; výsledek spolupráce s Google Research, švýc. Valenční slovník českých sloves (Karolinum) Elektronická verze k dispozici lingvistiky (LC536) 18

Nejcennější výsledky - data Korpusy (jazykové databáze, vydané celosvětov tově) Prague Dependency Treebank 2.0, Linguistic Data Consortium 2006 Czech Wordnet 1.0 (ELRA, 2008) Sign Language, Audiovisual (ELRA, 2008) Testovací kolekce CLEF 2006, 2007 Multilingual cross-langauge search competitions Machine Translation Open Competition - EuroMatrix 2006-8 Czech-English English, German, French, Italian, Hungarian, Spanish CoNLL Shared Task 2007, 2009, koordinace v r. 2009 Dependency parsing, semantic role labeling (čeština) lingvistiky (LC536) 19

Nejcennější výsledky - software Software Korpusový manažer Bonito/Manatee Celosvětov tové použit ití: ČNK, SNK; Hu, Hr,, GB Word Sketch Engine Komerční využit ití,, spol. s Lexical Computing ComPOST State-of of-the-art POS tagger (Cz( Cz,, Sk, En,...) Syntaktický parser MST (čeština) Ve spolupráci s Univ. of Pennsylvania lingvistiky (LC536) 20

Vliv vzniku Centra na spolupracující organizace Využit ití účelové podpory 3/4 nákladn kladů: : osobní náklady Cestovné,, technické zabezpečen ení Investice (rok 1 a 2-2005 a 2006) Výpočetn etní technika, statistické výpočty Malé doplňkov kové náklady (režie - do 12%) nehmotný dopad - nejdůle ležitější: Vytvořen ení perspektivních týmů Mgr./Ph.D. studenti lingvistiky (LC536) 21

Plnění podmínek programu a smlouvy I Zaměstn stnávání a vedení doktorandů (škol. prac.) Nyní na všech v 4 pracovištích ch (2009: 10/4/9/1) Podmínka: min. 1 pracoviště Účast studentů (Bc./Mgr./Ph.D.) Celkem prošlo CKL 35 studentů 5 národnostn rodností Uplatnění v komerční sféře Splněno no Splněno no Petr Němec N (UK): TextKernel,, Hol.; Kiril Ribarov (UK): ČEZ Jan Romportl,, Aleš Pražák: SpeechTech (spinoff,, ZČU) Z Vladimír Kadlec (MU Brno): Acision (GB) Býv.. CKL (LN): M. Čmejrek,, J. Cuřín (UK): IBM Research lingvistiky (LC536) 22

Plnění podmínek programu a smlouvy II Podmínka: zapojení do evr.. výzkumného prostoru 6 projektů EU, 6. a 7. RP Všechny typy: IP, STREP, NoE; ; SSA, Dig. Libraries USA Companions (IP) - ZČU, UK; EuroMatrix, EuroMatrixPlus (STREP) - UK Clarin (SSA) - UK, MU, ÚJČ; ; KYOTO (Dig( Dig. Libraries) - MU Malach (do 2007; UK, ZČU): Z USC, JHU, IBM, UMD PIRE: rozpoznávání řeči i a strojový překlad p (UK, nepřímo ZČU): Z JHU, Brown Univ. Treebanking: Univ. of Colorado Splněno no lingvistiky (LC536) 23

EU Project Companions Cíl Inteligentní společník k pro konverzaci nad fotografiemi, how was your day Technologie Plná ASR, emocionáln lní TTS Porozumění přirozenému jazyku, generování Přirozenost dialogu: user studies / evaluation CKL UK/ZČU: U: ASR, TTS, NLU, NLG, částečně dialog lingvistiky (LC536) 24

Prodloužen ení projektu CKL 2010(-2011?) 2011?)

Účel prodloužen ení Zachovat stabilizovaný tým Experimentáln lní / týmový charakter oboru Společný postup pro evropské projekty Řada studentů před obhajobou (2010-11) 11) Překlenout období 2010-11 11 Skončen ené programy (2009) - nové neexistují VZ nelze rozší šířit, není pro studenty, a je izolovaný (instituce) Pokračovat ovat v aktuáln lních tématecht Rozší šíření anotovaných korpusů Vytvořen ení softwarových nástrojn strojů na jejich základz kladě Analýza jazyka od ASR po sémantickou s analýzu lingvistiky (LC536) 26

Očekávaný přínosp Obecně Rozvoj statistických metod zpracování přirozeného jazyka a mluvené řeči Tvorba další ších zdrojů,, integrace stávaj vajícíchch Lexikáln lní i korpusové (pro statistické metody) Pro pracoviště a instituce Jednotlivě udržen ení nadaných studentů v akademickém m prostřed edí kritický objem studentů a mladých věd. v pracovníků (týmy) Společně: : získz skání další ších projektů EU (+ spol. s USA) Rozpočet: cca ve stávaj vající výši i (13-13.5 13.5 mil. Kč) K Navýšen ení vzhledem k získz skání kvalifikace u 7 pracovníků lingvistiky (LC536) 27

Cíle prodloužen ení Čeština, angličtina (jednotlivě,, strojový překlad) p Data, anotace; analýza, generování Mluvený jazyk, integrace ASR, TTS: zdokonalování Rekonstrukce řeči dialogové systémy Information Retrieval (mluvená jazyková data) Lexikáln lní zdroje - budování a začlen lenění do násstrojů NLP Slovníky několika n typů rozšiřov ování,, dokončen ení Lexikáln lní databáze češtiny Mezinárodn rodní spolupráce (EU, USA) lingvistiky (LC536) 28

Očekávané výsledky 2010-2011 2011 Pokračov ování publikační činnosti - výstupy: Články ve sbornících ch a časopisech Anotovaná data (celosv( celosvět.. publikace) Software - open source nebo licence Dokončen ení Ph.D. studia 5-77 doktorandů Zapojení do další ších EU (USA) projektů 3 žádosti podány ve 4. Call (překlad) Příprava nových projektů EU, Technologická agentura(?) lingvistiky (LC536) 29

Ukázky projektů CKL

Významová anotace věty v (UK) lingvistiky (LC536) 31

PDT 2.0: Anota otační vrstvy lingvistiky (LC536) 32

Rekonstrukce řeči i (UK, ZČU) Z Překlad lingvistiky (LC536) 33

Rekonstrukce řeči Spisovná varianta promluvy editované interview Manuáln lní anotace Automatické nástroje, propojení se syntaxí (v budoucnu) lingvistiky (LC536) 34

Akustické modelování mezislovního kontextu (ZČU) Využit ití: Automatické titulkování televizních pořad adů (např.. zápasz pasů ledního hokeje) v reáln lném čase lingvistiky (LC536) 35

Automatický překlad čeština -> znaková řeč: Znakovaná čeština umělý jazykový systém komunikace mezi slyší šícími a neslyší šícími podobná češtině Český znakový jazyk mateřský a přirozený p jazyk neslyší šících ch komunikace mezi neslyší šícími navzájem odlišná od češtiny: simultánnost např.. jeden znak pro člověk-běží užití prostoru do prostoru jsou umíst stěny objekty komunikace, na něžn se mluvčí odkazuje roli intonace zastupuje mimika obličeje Člověk k ovládaj dající znakový jazyk nemusí umět česky (ani rozumět t textu) lingvistiky (LC536) 36