Nové EU projekty (od 2010)
|
|
- Emil Veselý
- před 8 lety
- Počet zobrazení:
Transkript
1 Nové EU projekty (od 2010) Faust (STREP) T4ME Net (NoE) Jan Hajič & al.
2 FAUST: Feedback Analysis for User-adaptive Statistical Translation 7. RP, kooperativní, STREP, (únor), GA # Unit E1: multilingvalita strojový překlad Language-based interaction další: např. Panacea (P. Pecina, DCU) Koordinátor: Univ. of Cambridge Bill Byrne, dříve na JHU Baltimore Partneři: UCAM, CU, UPC Barcelona (Lluís Márquez), LanguageWeaver USA/Rum. (Daniel Marcu), Softissimo (Theo Hoffenberg) Peníze: EUR 772k, z toho 370k na mzdy+poj. Ročně cca 2.2 mil. na hrubé mzdy JH, Jelínek, D. Mareček, J. Ptáček(?); data(?): MM, SC, JM, další
3 FAUST Jazyky: EN, CZ, ES/CA, RO, FR, AR, ZH) Hlavní témata Začlenění zpětné vazby od uživatele do MT Rychle (cíl: online ) Sběr dat Zlepšení plynulosti překladu Plynulost ~ gramatičnost (fluency) Pomocí generování (NLG) První aproximace: n-best z MT, robustní analýza, kombinace, generování (pravidly(?)); cíl: začlenění do celkového modelu, dekodéru Další témata Metriky pro strojový překlad
4 Vstup FAUST
5 FAUST Automatický překlad (LW?)
6 Oprava uživatele FAUST
7 T4ME Net: Technologies for the Multilingual European Information Society 7. RP, NoE, (únor), GA # Unit E1: multilingvalita strojový překlad Language-based interaction Partneři: DFKI (koord.), CNR (Pisa), DCU, ELRA (celkem 13) Peníze: EUR 353k, z toho cca 100k na mzdy+poj. 12 člověkoměsíců na výzkum 28 člověkoměsíců na infrastrukturu (5) a networking (23) JH, P. Straňák,?
8 T4ME Net
9 T4ME je network
10 GA ČR P406/2010/0875 název: Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu trvání: řešitelé: prof. J. Panevová M. Ševčíková, J. Hlaváčová, J. Mírovský, V. Kettnerová, V. Kolářová, P. Pajas, S. Cinková, (M. Mikulová) celkem cca 3 úvazky Seminář ÚFAL, Hejnice ledna 2010
11 GA ČR P406/2010/0875 celkový finanční objem: 15 milionů finance na 1. rok řešení: 3,5 milionu, z toho mzdy tisíc OON 288 tisíc cestovné 80 tisíc Seminář ÚFAL, Hejnice ledna 2010
12 GA ČR P406/2010/0875 náplň projektu: (A) Prohloubení informací na TGTS PDT 2.0 (uvnitř věty i nadvětně), některé aspekty zabudování mimojazykového obsahu (B) Metodologické závěry z anotace diskuzních a marginálních jevů (C) Instrukce k anotování diskurzu se zřetelem k anotování mluvených projevů (D) Zvětšení objemu (syntakticky) anotovaných dat (PDT 3.0, PCEDT, PDTSL) Seminář ÚFAL, Hejnice ledna 2010
13 GA ČR P406/2010/0875 očekávané výsledky: teoretické články a studie o nově zjištěných jevech (A, B) pokyny (doplněný manuál, technická zpráva o změnách v anotačním scénáři pro PDT 3.0) (C) vydání CD s PDT 3.0 (D) Seminář ÚFAL, Hejnice ledna 2010
14 GA ČR P406/2010/0875 PDT 3.0 anotování ATS a TGTS na PDTSC (mluvený korpus po etapě rekonstrukce, cca 25 tisíc vět) vstup: zvukový signál, výstup: ATS a TGTS (včetně koreference) výhody nevýhody Seminář ÚFAL, Hejnice ledna 2010
15 GA ČR P406/2010/0875 změny v anotačním scénáři (příklady): nové funktory (kvazivalenční: Překážka, Mediátor; subfunktory) nové gramatémy (diatéze rezultativní, recipientní; factmod: asserted, potential, irreal) požadavky na slovník plynoucí z těchto zjištění: promítnutí sémantických diatezí (alternací) do VALLEXu uplatnění rozdílu syntaktické a sémantické derivace u deadjektivních příslovcí další typy koreference a analytické predikáty další typy textové koreference Seminář ÚFAL, Hejnice ledna 2010
16 PDT 2.x Jan Štěpánek Náplň: opravy drobnějších chyb v PDT 2.0 Lidé: ze svého post-doc GAČRu mohu platit jen sebe spolupracovat může každý, kdo projeví zájem Financování: mě platí můj GAČR, na nic jiného peníze nejsou Trvání: GAČR je na tři roky Výsledky: prvních pár oprav. Je to víc práce, než jsem původně čekal.
17 PCEDT cz Pražský česko-anglický závislostní korpus česká část Vstup: texty Wall Street Journal (PTB): vět překlad textů do češtiny a revize a postrevize překladu tektogramatická anotace Výstup: vydání CD (v LDC) na konci roku 2010 Kdo? Jan Hajič Marie Mikulová a Jan Štěpánek Anotátoři: aktuálně 8 Ivana Klímová, Olga Hromadová, Martina Otradovcová, Katka Voleková, Alena Kropíková, Lenka Hrejsemnová, Michala Lvová, Jitka Faktorová Financování: Companions, EuromatrixPlus, CKL, GAČR JPa, GAČR JŠt a řada dalších (PIRE, MŠMT KONTAKT, GAUK, IS, GAČR)
18 PCEDT cz Pražský česko-anglický závislostní korpus česká část Překlad textů do češtiny a několikanásobná revize překladu překlad, revize, postrevize pokyny k překladu/post/revizi, glosář zbývají cca 2 % postrevizí (984 vět, slov) předpokládaný konec: únor 2010 Po postrevizi: Zisk po zdanění a minoritní podíly, avšak před mimořádnými položkami se zvýšily... Správně: Zisk po započtení daně a menšinových podílů, avšak před započtením mimořádných položek se zvýšil... [Originál: Profit after taxes and minority interests but before extraordinary items increased...]
19 PCEDT cz Pražský česko-anglický závislostní korpus česká část Tektogramatická anotace (1. fáze) automatické zpracování m-roviny, a-roviny i předzpracování t-roviny anotace struktury a funktorů, valence sloves a substantiv na -ní/tí, zástupné t-lema #NewNode, odkazy do a-roviny (10 atributů z 39) rozšiřování valenčního slovníku sloves o nové rámce (cca nových rámců) neanotuje se koreference, aktuální členění, subfunktory, gramatémy, uvozovky průběžné automatické kontroly správnosti anotace: přes 100 kontrolních skriptů (structure, coord, valency, links, attribute) měření mezianotátorské shody, chybovosti, výkonnosti (9,2 věty/hod) hotovo: 95 % korpusu ( vět), předpokládaný konec: březen 2010 Plán do konce roku (příprava CD k vydání): kontroly a opravy, anotátorské poznámky anotace gramatické a textové koreference
20 Prague English Dependency Treebank EuroMatrix+, GA P406/2010/0875 (?) manuální tektogr. anotace 1M slov z PennTreebanku (WSJ) Dosavadní výsledky (cca od semináře v Třeboni): vylepšení automat. předzpracování, kontrolní skripty, urychlení anotace (z 25% v lednu 2009 na 65% v lednu 2010). Plán: konec 2010: anotace kompletní, příprava k vydání u LDC. Manuál? Spolupracovníci (aktuální): Jan Hajič, Silvie Cinková, Eva Fučíková, Kristýna Čermáková, Matěj Korvas, Ema Krejčová, Lucie Mladová, Jan Mašek, Adam Pospíšil, Kateřina Rysová, Magdaléna Rysová, Jana Šindlerová, Kristýna Tomšů, Kateřina Veselá, Kateřina Veselovská
21 Od struktury věty k textovým vztahům GA ČR 405/09/0729 Seminář ÚFAL, Hejnice
22 Charakteristika projektu řešitelka prof. Hajičová celkový rozpočet 3,6 mln. Kč ( ) souvislost s dalšími projekty (např. GAUK Linh, GAUK L. Mladová, Kontakt E. Hajičová)
23 Náplň projektu Vztahy přesahující rámec věty (stromu): - koreference - aktuální členění - textové vztahy (diskurz)
24 1. Anotace koreference a bridging vztahů na tektogramatické rovině PDT Lidé: Anja Nedolužko (zodp. osoba), Jiří Mírovský (technická stránka), Radek Ocelák, Jiří Pergler (anotátoři) trvá od začátku r. 2009, plánuje se do konce r průběh práce: anotace rozšířené textové koreference (navazuje na\pokračuje v anotaci pronominální textové koreference prof. Hajičové a Lucie Kučové) anotace asociační (bridging) anafory v prosinci 2009 je hotovo cca 50% PDT
25 2. PlayCoref Lidé: Pavel Schlesinger, Barbora Vidová Hladká Výstup na (viz samostatná prezentace)
26 3. Automatické určování anafory Lidé: Nguy Giang Linh, Zdeněk Žabokrtský Výstup: dva systémy pro automatické určování zájmenné anafory: klasifikační systém založený na rozhodovacích stromech C5.0 rankovací systém založený na perceptronu (jednoznačně lepší, f-skóre 79,43 %). (viz samostatná prezentace)
27 4. Aktuální členění Lidé: Šárka Zikánová, Kateřina Rysová (DP, disertace) Výstup: ověření hypotézy systémového uspořádání z hlediska valence - hotovo: CAUS, DIR3, LOC, MANN, TWHEN
28 5. Anotace textových vztahů na tektogramatické rovině PDT Lidé: Lucie Mladová (zodp. osoba), Eva Hajičová, Šárka Zikánová, Jiří Mírovský (technická stránka), Zuzanna Bedřichová, Pavlína Jínová Jana Zdeňková, Jana Pěnčíková, Helena Filipová, Veronika Pavlíková (anotátorky) 1. fáze anotace textových vztahů vyjádřených konektorem 2009: přípravné anotace, školení anotátorů, vypracování základních anotačních instrukcí, vývoj anotačních nástrojů 2010: anotace naostro, manuál, úprava anotačních nástrojů, experimenty
29 Kontakt K počítačové analýze struktury textu grantový projekt česko-americké spolupráce s University of Pennsylvania Seminář ÚFALu, Hejnice
30 Povaha projektu Program mezinárodní spolupráce ve výzkumu a vývoji MŠMT Kontakt Agentura AMVIS (Americké vědecké informační středisko) dvoustranná spolupráce s USA Charakterem cestovní, výměnný typ grantu Americký partner musí doložit vlastní grantovou podporu pro daný vědecký projekt (NSF) Není prvním takovým podpůrným grantem na ÚFALu (JH MULDA)
31 Náplň projektu Spolupráce diskurzní skupiny na ÚFALu s touž skupinou ve Filadelfii, hlavním cílem je kooperace a vědecká výměna při vytváření korpusů zachycujících textové vztahy v typologicky různých jazycích (v Pennu kromě angl. i Hindi) Náš cíl v Praze: Vytvoření komplexního způsobu anotace textových (významových mezivětných) vztahů pro češtinu a vznik takto zaměřeného korpusu Anotační schéma - založeno částečně na systému korpusu Penn Discourse Treebank, částečně na funktorech t-roviny PDT. Manuál Anotační nástroj Anotovaný český korpus Vzájemné ověřování postupů zde a v USA, publikace (i společné), srovnání výsledků, komparativní studie
32 Projekt zaštiťuje zejména: Vědecký mezinárodní kontakt, tedy: Cesty do USA (do Filadelfie či na americké konference s účastí UPenn) Discourse Workshop pro UPenn a ÚFAL (ale i další zájemce), v Praze, 2011 Mzdy pro administrativní pracovníky (organizace workshopu aj.)
33 Kdo se účastní Na americké straně: tým prof. Aravinda Joshiho ve Filadelfii (pracovníci na projektu Penn Discourse TreeBank) Na české straně: Eva Hajičová, Zuzanna Bedřichová, Ondřej Bojar, Pavel Češka, Jiří Mírovský, Lucie Mladová, Šárka Zikánová, studenti (schopní anotátoři)
34 Trvání a finance 3 roky, Návrh financí 2,3 milionu, zkráceno na 1,7 Schválený rozpočet po jednotlivých letech: tisíc Současný stav spolupráce s prof. Joshim již několik let, nyní začíná být i finančně podporována. Probíhají úpravy rozpočtu dle schválených financí.
35 PlayCoref JAZYKOVÁ HRA S KOREFERENCÍ
36 PlayCoref - financování Barbora Hladká: 2010 VZ + GAČR Šárky Zikánové Jiří Mírovský: 2010 VZ + GAČR prof. Panevové Pavel Schlesinger: 2010 CKL Jan Kohout: 2009 OON, provoz (klient) Lenka Studničná: 2009 ročníkový projekt (server) Vladimír Rovenský: 2009 OON, IS Jarky Hlaváčové (administrace portálu LGame) Helena Pouchová: 2009 OON, provoz (grafika)
37 PlayCoref
38 PlayCoref Jen některá slova jsou aktivní.
39 PlayCoref Hráč označuje koreferenční vztahy.
40 PlayCoref Hra končí po vypršení času.
41 PlayCoref otevřené problémy jmenné fráze šedá ekonomika, česká ekonomika pojmenované entity pan Dušín, České Budějovice automatické určování koreference pro výpočet skóre výstup projektu
42 CLARIN Common Language Resources and Technology Infrastructure projekt FP Hlavní koordinátor University of Utrecht, Nizozemí (S.Krauwer), mimo ÚFAL dalších 31 podporovaných subjektů zeu Financování ze zdrojů EU EUR, dofinancování z ČR (MŠMT) EUR , tj. 36 měsíců
43 Účast ÚFALu Řešitelské pracoviště v ČR: Univerzita Karlova Tzv. národní kontaktní osoba: Hajičová Spoluúčastníci: z UK ještě ÚČNK, dále MUNI (Pala) Administrátor: Kotěšovcová Dosud se podíleli: Hajič, Pajas, Straňák, Štěpánek ad.
44 Náplň CLARIN x FLaReNet: z počátku nejasný vztah, téměř duplikát, jen zaměření CLARINu užší: využití počítačových korpusů a metod v humanitních vědách postupně se CLARIN profiluje ve smyslu konkrétních úkolů: standardizace, využití softwarových nástrojů, atd.
45 Výhledy Součást evropské roadmap tři fáze: přípravná (dnešní CLARIN do konce r. 2010), konstrukční a provozní Vytváření velkých infrastruktur výzkumu: návrh projektu LINDAT-CLARIN jako českého uzlu mezinárodní distribuované sítě Řešitel-koordinátor: Hajič Vědecký tajemník: Straňák Administrátor: Kotěšovcová Odborný garant a koordinátor spolupráce s CLARIN: Hajičová Spoluřešitelská pracoviště: ÚJČ, MUNI, ZČU
46 Náplň sběr jazykových dat (textová, řečová, paralelní) anotace dat (včetně anotačních nástrojů) zpřístupnění dat a jejich distribuce začlenění softwarových nástrojů do poskytovaných webových služeb
47 Časové rozvržení 2010 příprava Centra : konstrukční fáze (-2020): provoz (tzv. operační fáze) Finance: ročně 20 mil.
48 FLaReNet Fostering Language Resource Network projekt ECP-2007-LANG Hlavní koordinátor CNR-ILC, Itálie (N.Calzolari), mimo ÚFAL dalších 27 podporovaných subjektů z EU a 10 dalších, nepodporovaných subjektů z celého světa
49 Financování ze zdrojů EU bez dofinancování z ČR, částka na celé období je EUR , tj. 36 měsíců Odpovědný řešitel z ÚFALU: Hajičová Administrátor: Kotěšovcová Tým není přesně specifikován, kdokoli z ÚFALu
50 Náplň projektu tzv. network nejde o research project Podpora kontaktů, workshopů, forum V čem pro nás užitečný: Dáváme o sobě vědět Dozvídáme se, co dělají ostatní Některé akce projektu organizovány při konferencích, kde máme příspěvky -> financování účasti
51 EuroMatrixPlus celkově Překlad mezi všemi evropskými jazyky Zpřístupnění MT pro uživatele Témata: Bohatší frázové modely, hierarchické modely Stromové a hloubkově syntaktické modely Hybridní metody (zejm. pravidlový + statistický MT) Nástroje, data (Moses, TectoMT, ) a komunita WikiTrans MT pro lokalizaci (Localization Workflow) Sársko, Edinburk, my, FBK Trento, Le Mans, JHU, DCU + firmy Lucy Software a CEET
52 EM+ na ÚFALu Úkoly: Data: ruční i automatická Software: TectoMT, nástroje k Mojžíšovi,... Modely: bohatší frázové, různé přes t-rovinu Zatřešuje projekty: PEDT PCEDT_CZ TectoMT
53 Data Ruční (zhruba ): PEDT (aj): 0,05 mil. vět, 1,2 mil. slov; hotovo 65% PCEDT_CZ: 1,0 mil. slov 98% zrevidován překlad 95% anotace hotova Automatická: CzEng 0.9; budou další 8 mil. paralelních vět 93 mil. anglických a 82 mil českých a-uzlů 59 mil. anglických a 59 mil. českých t-uzlů
54 TectoMT TectoMT jako platforma pro vývoj NLP Využíváno v mnoha projektech. Předanotace PEDT, PCEDT,... Anotace CzEngu Dialogový systém Companions,... TectoMT jako experimentální systém MT Mělká t-rovina (formémy místo funktorů, víceméně zachováno povrchové pořadí uzlů). Nově max.ent. model pro transfer t-lemat a formémů.
55 Aktuální výsledky MT BLEU NIST Google (17.41±0.53) Ondřejův Moses (15.63±0.51) TectoMT (12.1.) (10.79±0.41) Protipříklad: SRC REF Google Moses TectoMT "We've drawn it all up. "Vypracovali jsme všechno. "Máme vypracován to všechno nahoru. "Máme tady všechno. "Vypracovali jsme to všechno.
56 TectoMT SW laboratoř pro experimenty a vývoj aplikací v NLP struktura dat (roviny) převážně podle PDT vlajková aplikace: překlad přes tektogramatickou rovinu open-source, veřejně dostupné ze svn integrovaná řada existujících NLP nástrojů (hlavně pro češtinu a angličtinu) taggery, závislostní parsery, složkové parsery, rozpoznávače pojm. entit, konvertory formátů... kompletní analýza (a syntéza) českých a anglických vět na (z) tektogramatickou rovinu společné úfalí vývojářské hřiště, nikoli jeden konkrétní projekt/grant
57 Projekt JAZZ Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů MFF + ÚJČ jen MFF Hlavní řešitel: Jarka Hlaváčová Sekce Jednotný formát: Petr Pajas Honza Štěpánek Sekce Pojmenované entity: Zdeněk Žabokrtský Magda Ševčíková Honza Ptáček Jana Kravalová Martin Popel David Mareček Oldřich Krůza Další účastníci: Milan Fučík Maruška Křížková Honza Raab David Kolovratník
58 Projekt Jazz, část pojmenované entity Ručně anotovaná data Czech Named Entity Corpus 1.0 cca 6000 vět, cca výskytů p.e. Manual Word Alignment Corpus 0.5 česko-anglický korpus, párování na úrovni slov Nástroje pro rozpoznávání pojmenovaných entit. rozpoznávač založený na rozhodovacích stromech (O. Krůza) rozpoznávač založený na pravidlech a seznamech geografických názvů (M. Popel) rozpoznávač založený na klasifikátoru SVM (J. Straková) Další data CzEng česko-anglický paralelní korpus, cca 80/90 mil.slov Další software řada komponent v TectoMT
59 Projekt JAZZ ukončený k Část jednotný formát Datový formát PML Specifikace, implementace, převodní nástroje Integrace do TrEdu a dalších nástrojů Nástroje TrEd, MEd, jtred, ntred, různé utility XML knihovny pro Perl (XML::LibXML, XML::CompactTree::XS) Tisk stromů do vektorového formátu SVG Vyhledávání v datech - PML-TQ Dotazovací jazyk PML-TQ Dvě implementace vyhledávače (překladem do SQL a v čistém Perlu) Grafická rozhraní: webový browser a TrEd Integrace zdrojů a jejich zpřístupnění pomocí PML-TQ PDT PDT ValLex, CAC, PEDT Další treebanky: Penn (English), Tiger, Penn Arabic, Penn Chinese, Sinica (složkově a závislostně), Hyderabad, závislostní treebanky z CoNLL2009 ST Spolupráce se zahraničím (uživatelé TrEdu a PML-TQ) Německo, Švýcarsko, Polsko, Japonsko, Korea a další
60 Typické vzory užívání anglických sloves a jejich anotace v PEDT Patrick Hanks Silvie Cinková Martin Holub
61 Záměr projektu Zmapovat syntakticko-sémantické vzory užívání sloves s ohledem na významy sloves četnost výskytu vzorů v korpusu normální vs. figurativní (vy)užití vzorů Formální popis typických vzorů užívání sloves Pattern Dictionary of English Verbs (PDEV) Procedury pro automatickou podporu vytváření slovníku PDEV Aplikovatelnost slovníku PDEV
62 Složení týmu Patrick Hanks, Silvie Cinková, Martin Holub, Eva Fučíková MFF UK, Praha financování: Výzkumný záměr, projekt Companions trvání 1 rok Pavel Rychlý, Adam Rambousek FI MU, Brno financování: brněnské zdroje dosavadní vývoj cca 4 roky Lenka Smejkalová, Jan Popelka studenti MFF UK, Praha financování: zatím 0; přislíbeny drobné peníze na anotační práce z GAČR grantu prof. Panevové
63 Současný stav projektu Slovník typických vzorů užívání pro 650 anglických sloves vytvořeno na základě analýzy výskytů sloves v British National Corpus (BNC) pro každé sloveso vzorek označkovaných výskytů v BNC pokrytí > 10% všech slovesných výskytů v BNC Probíhající anotace vybraných sloves 1000 výskytů v BNC (20 různých sloves) 1075 výskytů v PEDT (18 různých sloves) 3-4 anotátoři (PH, SC, MH, studenti) čištění slovníku, konsistence, feedback pro autora evaluace (zejm. míra mezianotátorské shody) korelace vzorů užití s překladovými ekvivalenty
64 Vzdálenější cíle Rozšíření PDEV větší pokrytí sloves přesnější struktura vzorů užívání Automatické rozpoznávání popsaných vzorů Automatická detekce ne-popsaných vzorů spíše generování návrhů pro ruční ověření při analýze specifického korpusu Aplikace PDEV lexikografické využití automatická syntakticko-sémantická analýza textu hypoteticky podpora strojového překladu
65 Syntaktická analýza souvětí pro počíta tačové zpracování češtiny GAČR 405/08/0681 Hejnice, seminář ÚFALu
66 Syntaktická analýza souvětí pro počíta tačové zpracování češtiny trvání: řešitelka: Markéta Lopatková zúčastnění: Petr Homola (0,5 úvazku) Vláďa Kuboň, Martin Plátek, Jarmila Panevová Tomáš Holan (2008/9) Natalia Klyueva (2008/9), Oldřich Krůza (2008/9) finance: 1,995 mil. (531 tis. 702 tis. 762 tis.) Hejnice, seminář ÚFALu
67 Syntaktická analýza souvětí pro počíta tačové zpracování češtiny Náplň: vývoj a testování automatické metody pro odhad struktury českých souvětí 1. Datová struktura segmentů a segmentačních schémat; 2. Sběr lingvistických dat a jejich klasifikace; 3. Vývoj a implementace automatické procedury pro segmentaci souvětí; 4. Formální matematický model pro teorii segmentů; 5. Systém značek pro segmenty a návrh pravidel pro spojování segmentů do klauzí; 6. Implementace automatické procedury pro spojování segmentů do klauzí; 7. Příprava a modifikace dat Pražského závislostního korpusu pro získání testovacích dat; 8. Vyhodnocení implementovaných procedur. 9. Aplikace Hejnice, seminář ÚFALu
68 Syntaktická analýza souvětí pro počíta tačové zpracování češtiny Náplň: vývoj a testování automatické metody pro odhad struktury českých souvětí 1. Datová struktura segmentů a segmentačních schémat; 2. Sběr lingvistických dat a jejich klasifikace; 3. Příprava a modifikace dat Pražského závislostního korpusu pro získání testovacích dat; 4. Vývoj a implementace automatické procedury pro segmentaci souvětí; 5. Systém značek pro segmenty a návrh pravidel pro spojování segmentů do klauzí; 6. Implementace automatické procedury pro spojování segmentů do klauzí; 7. Vyhodnocení implementovaných procedur; 8. Aplikace 9. Formální matematický model pro teorii segmentů; Hejnice, seminář ÚFALu
69 Syntaktická analýza souvětí pro počíta tačové zpracování češtiny Náplň: vývoj a testování automatické metody pro odhad struktury českých souvětí 4. Vývoj a implementace automatické procedury pro segmentaci souvětí; 5. Systém značek pro segmenty a návrh pravidel pro spojování segmentů do klauzí; 6. Implementace automatické procedury pro spojování segmentů do klauzí; 7. Vyhodnocení implementovaných procedur; 1. Datová struktura segmentů a segmentačních schémat; 2. Sběr lingvistických dat a jejich klasifikace; 3. Příprava a modifikace dat Pražského závislostního korpusu pro získání testovacích dat; 8. Aplikace 9. Formální matematický model pro teorii segmentů; Hejnice, seminář ÚFALu
70 Syntaktická analýza souvětí pro počíta tačové zpracování češtiny Náplň: vývoj a testování automatické metody pro odhad struktury českých souvětí 8. Aplikace ČESÍLKO 1. Datová struktura segmentů a segmentačních schémat; 9. Formální matematický model pro teorii segmentů. 2. Sběr lingvistických dat a jejich klasifikace; 3. Příprava a modifikace dat Pražského závislostního korpusu pro získání testovacích dat; 4. Vývoj a implementace automatické procedury pro segmentaci souvětí; 5. Systém značek pro segmenty a návrh pravidel pro spojování segmentů do klauzí; 6. Implementace automatické procedury pro spojování segmentů do klauzí; restartovací automat paralelně komunikující gramatické systémy 7. Vyhodnocení implementovaných procedur; Hejnice, seminář ÚFALu
71 Internet jako jazykový korpus January 15, 2010 () Internet jako jazykový korpus January 15, / 3
72 Základní údaje Název: Internet jako jazykový korpus Funding: GAČR standardní projekt Doba trvání: Peníze: 2.7M celkem (500k 2009, 1M 2010, 1.2M 2011) V hlavním roĺıch: Johanka a Mirek Spoustovi Ve vedlejších roĺıch (special guests): Pavel Pecina, Jan Hajič, Jarmila Panevová () Internet jako jazykový korpus January 15, / 3
73 Náplň Hlavní cíl: Vytvořit (český) korpus z webu a releasnout sw nástroje potřebné pro jeho výrobu Vedlejší cíle: korpus něčím označkovat, tj. trochu si pohrát s taggingem, parsingem.. Co už máme: pracujeme na nástrojích, hrajeme si s taggingem a parsingem :) Hlavní nástroje: Victor - čistič (existuje, chceme vylepšit), Hector - stahovač (Mirek píše), Featurama - Mirkova obecná implemtace,,morčecího perceptronu (existuje, využíváno) () Internet jako jazykový korpus January 15, / 3
74 Lexemann Lexikálně sémantická anotace víceslovných výrazů v PDT Ruční anotace víceslovných frazémů a NE stand-off anotace nad tektogramatickou rovinou: s-rovina vlastní slovník SemLex, tvorba anotátorských instrukcí Řešitelský kolektiv Pavel Straňák, Eduard Bejček, anotátoři Pavel Šidák, Pavlína Vimmrová, Natalia Kljueva, Eva Šťastná 2006? 2009 IS J. Hajiče ( ), GAUK P. Straňáka ( ?) placeni 2 řešitelé a 2-3 anotátoři Hotová je anotace 99% t-roviny PDT 2.0 Zbývá pročistit a zkontrolovat data, sjednotit anotátorské slovníky, slévání/přemapování/všívání pro snadné zobrazení a vyhledávání v TrEdu s PML-TQ, vydat data
75 Projekt ValLink Prolinkování VALLEXu a PDT VALLEXu Automaticky propojit odpovídající si rámce schválit méně jisté a ručně propojit zbylé Řešitelský kolektiv Eduard Bejček, Markéta Lopatková, Zdeňka Urešová, Pavel Straňák, Karel Vandas, (Václava Kettnerová) GAUK (129 tis. Kč na rok 2009) Další plán: rozgenerovat vidové dvojice zobrazit v TrEdu a vyhledávat pomocí PML TQ s odkazy na vidové protějšky a na ekvivalentní rámce
76 GAUK název: Multilingvální zdroj valenčních vlastností sloves realita: propojení PDT-VALLEXu a Engvallexu, na úrovni rámců i jednotlivých valenčních pozic trvání: lidé: 2008, 2009: Jana Šindlerová, Markéta Lopatková, Zdeňka Urešová, Ondřej Bojar, Josef Toman 2010: -JT, +Eva Fučíková, +Kateřina Veselovská cíle: komputační: oboustranný překladový elektronický slovník lingvistický: zdroj pro zkoumání shod a rozdílů ve valenci Cz a En sloves rozpočet: průměrně 120 tis. ročně na projekt
77 Kompetence JŠ: Engvallex: kontrola obsahu a příprava na propojení anotace propojování rámců na korpusových příkladech ZU: PDT-VALLEX: kontrola obsahu a příprava na propojení JT, EF: Engvallex a anotační prostředí: technická příprava OBo: Anotační prostředí, alignment, příprava korpusových dat, nedocenitelné nápady a další práce všeho druhu :) ML: valenční poradce, konzultant a dozor :) KV anotace propojování rámců na korpusových příkladech
78 Jak jsme daleko Oba slovníky i anotační prostředí připraveny, začínáme anotovat Anotace nejprve En->Cz, výsledky ukládány do Engvallexu seznam id odpovídajících rámců u každého rámce Engvallexu u každého id informace o mapování jednotlivých valenčních pozic (uspořádaná dvojice funktorů)
79 Anotace v TrEdu, na zvláštních verzích obou slovníků i PCEDT (updatovány pravidelně) na současně zobrazených paralelních stromech, včetně alignmentu uzlů a valenčních pozic filelisty pro každou dvojici alignovaných sloves (alignment jiného druhu není brán v úvahu) první vhodný výskyt dvojice rámec-rámec anotován ručně, uložený výsledek se ihned automaticky zobrazí u všech dalších výskytů a anotátor pokračuje kontrolou případných konfliktů
80 modré šipky: automatický návrh alignmentu dcer slovesa červené šipky: návrh anotátora zelené plné šipky: alignment potvrzený anotátorem a uložený ve slovníku
81 Diateze a transformace povrchového vyjádření valenčních doplnění NÁPLŇ: výzkum vyjádření slovesného děje jako základu každé věty a možnosti vyjádření jeho argumentů podle požadované diateze KDO: Urešová, Hajičová, Šindlerová, Ptáček FINANCOVÁNÍ: Grantová agentura UK K, K, K? JAK DLOUHO: 2008 až 2010 VÝSLEDKY a PLÁNY: popis transformačních pravidel pro sekundární diateze, Využití: kontrola anotace generování Hejnice, únor 2010
82 FGP jako formáln lní překlad: eklad: redukční analýza a restartovací automaty Hejnice, seminář ÚFALu
83 FGP jako formáln lní překlad: restartovací automaty a redukční analýza finanční podpora: IS 1ET Methods for Intelligent Systems and Their Applications in Datamining and Natural Language Processing řeš. Jiří Šíma, ÚI AV ČR GAČR P202/10/1333 NoSCoM: Non-Standard Computational Models and Their Applications in Complexity, Linguistics, and Learning řeš. Jiří Šíma, ÚI AV ČR MFF: Martin Plátek, Markéta Lopatková (Fr. Mráz, I. Mrázová) Hejnice, seminář ÚFALu
84 FGP jako formáln lní překlad: restartovací automaty a redukční analýza Dlouhodobý cíl: Hejnice, seminář ÚFALu
85 FGP jako formáln lní překlad: restartovací automaty a redukční analýza Restartovací automat (převodník): + přepisovací kroky + pokládání "oblázků" Hejnice, seminář ÚFALu
86 FGP jako formáln lní překlad: restartovací automaty a redukční analýza Hejnice, seminář ÚFALu
87 FGP jako formáln lní překlad: restartovací automaty a redukční analýza plán na nejbližší období: formální model pro paralelní gramatiky generující stromové struktury restartovací automaty-převodníky zpracovávající paralelní stromové strukturu model reprezentace na analytické a tektogramatické rovině Hejnice, seminář ÚFALu
88 Projekt PDTSC Prague Dependency Treebank of Spoken Czech Marie Mikulová, Petr Pajas Nino Peterek, Jan Hajič, anotátoři, mluvčí, ZČU Hejnice, seminář ÚFAL MFF UK 1
89 Cíl(e) Krátkodobé: Hejnice, seminář ÚFAL MFF UK 2
90 Data Malach 30h, ~200 tis. slov 9 tis. vět Companions 140h, ~700 tis. slov 36 tis. vět Hotovo: transkripce 80%, aspoň 1x 71%, speech reconstruction 2x 63% Hejnice, seminář ÚFAL MFF UK 3
91 Nahrávání Wizard-of-Oz technologie: iluze strojové inteligence Moderátor Člověk Skrytý TTS Interface Stejné téměř Hejnice, seminář ÚFAL MFF UK 4
92 Transkripce Transcriber Formát XML Synchronizace Audio mono 44kHz.ogg Hejnice, seminář ÚFAL MFF UK 5
93 Speech Reconstruction Editace jako v redakci novin, časopisů Vše je dovoleno Linky mezi SR a transkripcí, dále až na audio (Re)segmentace do skutečných vět Rekonstr. Transkript Hejnice, seminář ÚFAL MFF UK 6
94 Organizace CKL, EU Companions + co se dá Nahrávání a transkripce Systém: Napier Univ. -> Pavel Ircing, ZČU Nino Peterek, ZČU ( ) Speech reconstruction Marie Mikulová, Petr Pajas Anotátoři Anna Kapsová, Ludmila Kaplanová, Michaela Luňáčková, Hanka Štěpánková, Petr Míčková (kontroly) + další (ASAP) Hejnice, seminář ÚFAL MFF UK 7
95 Resource-light Morphological Analysis and Tagging Jiří Hana GA ČR P406/10/P328 postdoktorský grant , 2.4 mil Kč Cíl: Rychlý a levný vývoj taggerů a morf. analyzátorů na základě: zdrojů dostupných pro příbuzný jazyk omezeného množství ručně vytvořených dat
96 Co už máme MA a tagger pro ruštinu (přes češtinu) katalánštinu, portugalštinu (přes španělštinu) MA pro češtinu 10K word-list, paradigmata, 20 derivací evaluace na substantivech (tagy, ne lemata): ambiguita 4.0, recall: 96.6% state of the art: 3.8, 98.7%
97 Jak to děláme Ruština přes češtinu HMM tagger transitions natrénované na upraveném PDT (ň -> n', nevím -> ne vím,...) emissions kombinace MA uniformního rozdělení výstupu ruské MA emission z PDT přenesené do ruštiny pomocí kognátů 1000 slov ve word-listu guesser na základě vzorů automaticky naučený slovník
98 Co chceme dělat Deepening scope: Improve the performance of the morphological analyzer, esp. automatic lexicon acquisition. Explore alternative algorithms for cognate detection and transfer. Incorporate Machine Learning methods. Broadening scope: Experiment with other lgs Middle Czech/Sorbian/Belorussian/Russian via Czech. Romanian via French/Spanish/Bulg/Slovene.
99 Co chceme dělat Better insights: Explore the pay-off of various possibilities to improve resources manually and identifying where the manual effort should be directed. Practical results: An out-of-the-box toolkit and guides for creating taggers a analyzers for new lgs
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
Korpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
Strukturovaný životopis
Strukturovaný životopis Mgr. Magdaléna Rysová Osobní informace E-mail: magdalena.rysova@post.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Vzdělání od 2012 FF UK v Praze: doktorské studium, obor Český
Příloha č. 1 Návrh Projektu velké infrastruktury schválený vládou
Příloha č. 1 Návrh Projektu velké infrastruktury schválený vládou Projekt LINDAT/CLARIN Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum Uchazeč Uchazečem o podporu je Univerzita
ve strojovém překladu
Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém
ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost 2005 1ET101120413
Národní 3, 117 20 Praha 1 List PT1 ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost Rok Identifikační kód projektu 2005 1ET101120413 01 Řešitel projektu Jméno: Mgr. Barbora Vidová Hladká,
Automatické párování uzlů českých a anglických tektogramatických stromů
Automatické párování uzlů českých a anglických tektogramatických stromů David Mareček pondělní seminář 13. 10. 2008 Osnova rozdíly mezi párováním na morfologické a na tektogramatické rovině ruční párování
Faktorované překladové modely. Základní informace
Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Veronika Kolářová, Jan Kolář, Marie Mikulová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita
KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!
KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze O (Ú)ČNK Ústav Českého národního korpusu, založen v roce
Co nového ve zpracování MWE Automatická identifikace
Co nového ve zpracování MWE Automatická identifikace Společný workshop tří GAČRů 15. dubna 2013 Víceslovné výrazy Osnova Víceslovné výrazy (VV, MWE) v PDT 2.5 Automatická identifikace Problémy (Úpravy
Rekonstrukce standardizovaného textu z mluvené řeči
Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Příspěvek shrnuje dosavadní poznatky získané při budování Pražského závislostního korpusu mluvené češtiny (Prague Dependency
CKL. Centrum. lingvistiky. Projekt MŠMT M MT LC536 (LC05) Univerzita Karlova v Praze, ÚFAL MFF. Masarykova Univerzita Brno, FI
CKL --- Centrum komputační lingvistiky Projekt MŠMT M MT LC536 (LC05) Univerzita Karlova v Praze, ÚFAL MFF Západočeská univerzita Plzeň,, KKY FAV Masarykova Univerzita Brno, FI Ústav pro jazyk český AV
Common Language Resources and Their Applications
Common Language Resources and Their Applications http://clara.b.uib.no/ Markéta Lopatková Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze formální rámec
Portál IT komunity v ČR Kamil Matoušek, Jiří Kubalík ČVUT Praha
Portál IT komunity v ČR Kamil Matoušek, Jiří Kubalík ČVUT Praha Projekt SoSIReČR SoSIReČR = Sociální síť informatiků v regionech České republiky Projekt je hrazen z rozpočtu Evropského sociálního fondu
VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová
VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex Zdeňka Urešová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Zdeňka Urešová VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex
Mzdy na ÚFALu
Mzdy na ÚFALu 2009 4.5.2009 1 Mzdové tabulky UK Univerzitní mzdové tabulky (předpis UK) Nespadají po státní systém (odměňování státní správy) Třída ~ tarifní rozpětí, plus osobní ohodnocení Akademické
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105
Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl
Strojové učení a pravidla pro extrakci informací z textů
Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015 Pozvánka Jako výzkumníci
GA ČR 2017 Informace pro navrhovatele projektů z VŠCHT Praha
GA ČR 2017 Informace pro navrhovatele projektů z VŠCHT Praha Ing. Iveta Pospíšilová Oddělení pro vědu a výzkum 14.3.2016 1 Aktuální vyhlášené soutěže https://gacr.cz/typy-projektu/ Standardní projekty
Jak dělat strojový překlad lépe než Google Translate
Mgr. Rudolf Rosa Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky ProSŠ, Gymnázium Kladno, 23. října
Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?
Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače? Markéta Lopatková Ústav formální a aplikované lingvistiky, MFF UK lopatkova@ufal.mff.cuni.cz Cíl popsat přirozený jazyk
Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod
Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období 1. 2. 2016 31. 1. 2019 1. Úvod Ústav teoretické a komputační lingvistiky FF UK (dále ÚTKL) byl založen roku 1990 prof. PhDr.
Podpora V&V v regionech v 7. RP REGIONY ZNALOSTÍ, VÝZKUMNÝ POTENCIÁL
Podpora V&V v regionech v 7. RP REGIONY ZNALOSTÍ, VÝZKUMNÝ POTENCIÁL Setkání se zástupci regionů Brusel, 30. května 2008 Lenka Havlíčková, TC AV ČR REGIONAL NCP havlickova@tc.cz REGIONY ZNALOSTÍ CÍL posilování
PDT-Vallex: trochu jiný valenční slovník
PDT-Vallex: trochu jiný valenční slovník Zdeňka Urešová uresova@ufal.mff.cuni.cz Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky Malostranské nám. 25 11800 Praha 1 Česká republika Abstract
Agronomická fakulta MENDELU řeší projekty OP VK
Seminář s workshopem Agronomická fakulta MENDELU řeší projekty OP VK Partnerská síť Agronomické fakulty MENDELU s komerční sférou CZ.1.07/2.4.00/17.0022 Ing. Ivo Vyskočil MENDELU, 13. 1. 2012 Projekt OP
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady
SíťIT: Portál na podporu sociální sítě informatiků v ČR http://www.sitit.cz/
SíťIT: Portál na podporu sociální sítě informatiků v ČR http://www.sitit.cz/ Projekt SoSIReČR SoSIReČR = Sociální síť informatiků v regionech České republiky Projekt je hrazen z rozpočtu Evropského sociálního
Seminář pro vedoucí knihoven asviústavů AV ČR ASEP
Seminář pro vedoucí knihoven asviústavů AV ČR ASEP 5. 5. 2016 ASEP bibliografická databáze repozitář Online katalog Repozitář Analytika ASEP Novinky ASEP Evidence výsledků vědecké práce ústavů AV ČR od
Nastavení provozního prostředí webového prohlížeče pro aplikaci
Nastavení provozního prostředí webového prohlížeče pro aplikaci IS o ISVS - Informační systém o informačních systémech veřejné správy verze 2.03.00 pro uživatele vypracovala společnost ASD Software, s.r.o.
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
Grey Literature ve světě
Grey Literature ve světě Martina Pfeiferová Státní technická knihovna m.pfeiferova@stk.cz Seminář ke zpřístupňování šedé literatury 2008 8. 10. 2008, VUT Brno Osnova Definice ŠL Mezinárodní konference
Projekt Digitální knihovna pro šedou literaturu po prvním roce řešení
Projekt Digitální knihovna pro šedou literaturu po prvním roce řešení Petra Pejšová Státní technická knihovna, Osnova Trochu historie Základní informace o projektu Harmonogram Výstupy Návaznosti na další
Archeologický informační systém České republiky Národní infrastruktura pro správu a prezentaci archeologických dat
Archeologický informační systém České republiky Národní infrastruktura pro správu a prezentaci archeologických dat 29.11.2017 2 AIS CR řešení dlouhodobých potřeb managementu archeologických terénních výzkumů
Uživatelská podpora v prostředí WWW
Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,
Možnosti zlepšení strojového překladu z angličtiny do češtiny
Prezentace k obhajobě diplomové práce Možnosti zlepšení strojového překladu z angličtiny do češtiny Martin Popel 14. září 2009 TectoMT Anotace překladových chyb Jednotlivá vylepšení Analýza Transfer Syntéza
Infrastruktura pro OA k výsledkům evropského výzkumu a vývoje
Infrastruktura pro OA k výsledkům evropského výzkumu a vývoje Cíle projektu OpenAIRE stručně Vybudování infrastruktury a podpory pro otevřený přístup k výsledkům vědeckých projektů financovaných z prostředků
Mezinárodní vědeckotechnická spolupráce České republiky v rámci programu KONTAKT
Mezinárodní vědeckotechnická spolupráce České republiky v rámci programu KONTAKT International Scientific and Technical Cooperation of the Czech Republic within the KONTAKT Programme Na základě mezinárodních
1. Přehled cizojazyčných a vícejazyčných korpusů
1. Přehled cizojazyčných a vícejazyčných korpusů typy korpusů a možnosti jejich využití 2. Nová verze korpusu InterCorp (prosinec 2014) nové jazyky a texty lemmatizace a značkování 3. Webové korpusy srovnatelné
Depfix: Jak dělat strojový překlad lépe než Google Translate
Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
Cl. Práce publikované v odborných Časopisech vydávaných v zahraničí
Příloha 6 Strukturovaná bibliografie Zdeněk Žabokrtský, 1999-2009 A. Monografie [1] Markéta Lopatková, Zdeněk Žabokrtský, and Václava Kettnerová. Valenční slovník českých sloves. Nakladatelství Karolinum,
Odborná zpráva o postupu prací a dosažených výsledcích za rok 2014
Odborná zpráva o postupu prací a dosažených výsledcích za rok 2014 Příloha k průběžné zprávě za rok 2014 Číslo projektu: TD020138 Název projektu: Optimalizace procesu nákupu externích poradenských služeb
Vyhlášení centralizovaného rozvojového programu pro veřejné vysoké školy pro rok 2016
Vyhlášení centralizovaného rozvojového programu pro veřejné vysoké školy pro rok 2016 I. Vyhlášení Ministerstvo školství, mládeže a tělovýchovy (dále jen ministerstvo ) vyhlašuje níže uvedený centralizovaný
MBI - technologická realizace modelu
MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,
zaměřením na spokojenost uživatelů se soudobými softwarovými produkty Ing. Josef Horák, Ph.D. 20. 1. 2012
Analýza procesu zpracování účetních informací se zaměřením na spokojenost uživatelů se soudobými softwarovými produkty Ing. Josef Horák, Ph.D. 20. 1. 2012 Řešitelský kolektiv: Akademičtí zaměstnanci: Ing.
Projekt NUŠL a další projekty v ČR
Projekt NUŠL a další projekty v ČR Petra Pejšová Státní technická knihovna p.pejsova@stk.cz, Osnova Základní informace o projektu Projektový tým Harmonogram Výstupy Vymezení NUŠL Dotazníkové šetření Metadata
Mariánské Lázně 25. VÝPIS Z VÝSLEDKŮ Závody Zpívající fontány Příjmení, jméno, RN : :
ANDĚL Jan 99 23 100 VZ 1:06.42 309 1:01.8 93.04 15 100 Z 1:18.12 245 1:15.8 97.03 22 50 VZ :31.42 269 :28.8 91.66 BARTOŇOVÁ Adéla 05 3 100 VZ 1:31.17 175 1:34.4 103.54 2 50 M :50.22 114 :56.80 113.10 3
Životopis Duben 2008
Jan Hajič Životopis Duben 2008 Osobní údaje: Narozen 4.11.1960 v Praze, r.č. 601104/0981 Bydliště: Nosická 12/2389, 100 00 Praha 10 Rodinný stav: ženatý, 2 děti Kontakt: hajic@ufal.mff.cuni.cz, tel. 607
Přehled nejvýznamnějších grantových agentur v České republice
Přehled nejvýznamnějších grantových agentur v České republice Grantová agentura ČR (GA ČR) www.gacr.cz projekty základního výzkumu trvání 1 5 let prakticky všechny obory možnost zapojení několika institucí
Publications 1 Barbora Vidová Hladká March 2017
Publications 1 Barbora Vidová Hladká March 2017 Books (2) 1. Panevová Jarmila, Bojar Ondřej, Cinková Silvie, Hajič Jan, Hladká Barbora, Kuboň Vladislav, Mírovský Jiří, Peterek Nino, Spoustová Johanka,
Lenka Maixnerová, Alena Šímová, Helena Bouzková, Filip Kříž, Ondřej Horsák, Marie Votípková. Národní lékařská knihovna, Praha, Česká republika
Lenka Maixnerová, Alena Šímová, Helena Bouzková, Filip Kříž, Ondřej Horsák, Marie Votípková Národní lékařská knihovna, Praha, Česká republika MeSH Medical Subject Headings (MeSH) je kontrolovaný slovník
Fond rozvoje vysokých škol Tématický okruh G
Fond rozvoje vysokých škol Tématický okruh G Ing. Šárka Dvořáková, Ph.D. EXCELENCE DOKTORSKÉHO STUDIA NA AF MENDELU PRO NAVAZUJÍCÍ EVROPSKOU VĚDECKO-VÝZKUMNOU KARIÉRU CZ.1.07/2.3.00/20.0005 Tento seminář
Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny
Detail projektu Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy Základní informace o projektu č. 1572314 Český název projektu: Modelování závislostní
České vysoké učení technické v Praze SGS ČVUT 2015 Číslo grantu: SGS15/097/OHK1/1T/15 Číslo FIS: E000. Závěrečná zpráva
Závěrečná zpráva Název projektu: Řešitel: Nové metody práce s databázovými daty dokumentujícími díla moderní architektury z hlediska dějin a vývoje architektury. Srba Jaromír Ing. arch. Informace o řešení
Podrobná analýza k aktivitě č. 3 - implementace procesního řízení do praxe úřadu
Příjemce dotace: Město Moravská Třebová Název projektu: Zvýšení kvality řízení a poskytovaných služeb MÚ Moravská Třebová Registrační číslo projektu: CZ.1.04/4.1.01/89.00116 Podrobná analýza k aktivitě
DOKTORSKÉ ( POSTGRADUÁLNÍ ) STUDIUM NA FARMACEUTICKÉ FAKULTĚ UK
DOKTORSKÉ ( POSTGRADUÁLNÍ ) STUDIUM NA FARMACEUTICKÉ FAKULTĚ UK Jaroslav Roh 11. 3. 2019 Studium otevřeno: absolventům magisterského studia FaF UK (Farmacie, Zdravotnická bioanalytika) absolventům magisterských
Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie
Rudolf Rosa Strojový překlad pojmenovaných entit za pomoci Wikipedie Obsah Strojový překlad Statistický strojový překlad Frázový statistický strojový překlad Překlad pojmenovaných entit O. Hálek, R. Rosa,
V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.
Syntakticky anotovaný korpus českých textů Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič, Alexandr Rosen, Hana Skoumalová Ústav teoretické a komputační lingvistiky, Filozofická fakulta
Návrh výzkumné potřeby státní správy pro zadání veřejné zakázky
Návrh výzkumné potřeby státní správy pro zadání veřejné zakázky A. Předkladatel garant výzkumné potřeby Název organizace Ministerstvo průmyslu a obchodu Adresa Na Františku 32, 110 15 Praha 1 Kontaktní
AdmireVet: zkušenosti ve druhé roce řešení projektu
AdmireVet: zkušenosti ve druhé roce řešení projektu Ivo Pavlík Markéta Kabourková Ivan Rychlík Výzkumný ústav veterinární lékařství, v.v.i. 6. společné setkání řešitelů OP VaVpI, JIC, Brno, 20.9.2011 Zdroje
Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1
Filozofická fakulta Na této stránce najdete kompletní nabídku Filozofické fakulty Univerzity Karlovy. Pokud máte zájem o kompletní nabídku, navštivte hlavní stránku. Přehled vědeckých týmů Centrum pro
NEWTON Technologies a.s. Jaroslava Schmidtová Project manager
NEWTON Technologies a.s. Jaroslava Schmidtová Project manager NEWTON Technologies a.s. Budoucnost tvoříme hlasem Jaroslava Schmidtová Project manager NEWTON Technologies, a.s. je česká společnost (založená
NEWTON Technologies a.s.
NEWTON Technologies a.s. Budoucnost tvoříme hlasem Mgr. Jaroslava Schmidtová Project manager NEWTON Technologies, a.s. je česká společnost (založená v roce 2008), která se specializuje na řešení využívající
IRP 2012 EKONOMICKÁ FAKULTA JU
IRP 2012 EKONOMICKÁ FAKULTA JU PO1: PROJEKT Název Inovace systému hodnocení VaV na EF JU Řešitel doc. Ing. Milan Jílek, Ph.D. Rozpočet Kč 197 500,00 PO1: CÍLE / INDIKÁTORY Cíl 1 Tvorba a zavedení systému
Znalostní systém nad ontologií ve formátu Topic Maps
Znalostní systém nad ontologií ve formátu Topic Maps Ladislav Buřita, Petr Do ladislav.burita@unob.cz; petr.do@unob.cz Univerzita obrany, Fakulta vojenských technologií Kounicova 65, 662 10 Brno Abstrakt:
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE Veronika Kolářová, Jana Klímová, Anna Vernerová Ústav formální a aplikované lingvistiky MFF UK Praha 22. 4. 2016 Slovanská lexikografie počátkem 21.
Economists Online: nový portál pro ekonomické vědy
Economists Online: nový portál pro ekonomické vědy Hana Pessrová, Tomáš Pavela, Eliška Reitspiesová, Lucie Vasiljevová INFORUM 2009 Praha, 27. - 29. 5. 2009 Univerzita Karlova v Praze, CERGE hana.pessrova@cerge-ei.cz
Michal Oškera (50854)
PV098 - Řízení SW projektů semestrální práce Michal Oškera (50854) 19. listopadu 2003 Obsah 1 Úvod 2 2 Plán projektu 3 2.1 Plán CO.............................. 3 2.2 Plán JAK.............................
Automatická anotace angličtiny na tektogramatické
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Josef Toman Automatická anotace angličtiny na tektogramatické rovině Ústav formální a aplikované lingvistiky Vedoucí diplomové práce:
Sociální síť informatiků v regionech České republiky
SoSIReČR Sociální síť informatiků v regionech České republiky Martin Nečaský, Ph.D. Katedra softwarového inženýrství MFF UK Systémová Integrace 2010 Strategie projektu Vize Sociální síť IT profesionálů
AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.
AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK. Václav Snášel, Jiří Dvorský, Petr Šaloun, Daniela Ďuráková VŠB Technická univerzita, 17. listopadu 15, 708 33 Ostrava Abstract Textová databáze AmphorA
2008 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 3.0 Česko
Tento dokument byl stažen z Národního úložiště šedé literatury (NUŠL). Datum stažení: 18.01.2017 Projekt NUŠL a další projekty v ČR Pejšová, Petra 2008 Dostupný z http://www.nusl.cz/ntk/nusl-41957 Dílo
Bibliometrie v Národní technické knihovně ~ metody, zkušenosti, mise a vize. Mgr. Jakub Szarzec Národní technická knihovna
Bibliometrie v Národní technické knihovně ~ metody, zkušenosti, mise a vize Mgr. Jakub Szarzec Národní technická knihovna Úvodem Bibliometrie. Citační analýza a další bibliometrické metody. Příklady. Mise
WIDE AREA MONITORING SYSTEM (WAMS) METEL
Synchronní měření Podpora pro Smart Grids AIS spol. s r.o. Brno WIDE AREA MONITORING SYSTEM (WAMS) METEL Profil společnosti AIS spol. s r.o.: Společnost AIS byla založena v roce 1990. Zaměstnanci společnosti
pro účely rozpočtu 1/3
Návrh k bodovému hodnocení VVČ pro účely rozpočtu 1/3 Ve srovnání s aktuální metodikou Úřadu vlády a MŠMT chybí v současné metodice na FJFI následující položky aplikačních výstupů Poloprovoz, ověřená technologie
Národní knihovna ČR NEWSLETTER 1/2005
Národní knihovna ČR NEWSLETTER 1/2005 Zpracovala: PhDr. Eva Marvanová Únor 2005 1. Cíle a aktivity projektu TEL-ME-MOR TEL-ME-MOR - projekt Evropská knihovna: Modulární rozšíření pro zprostředkovávání
Aktuální informace MMR Odboru regionální politiky
Aktuální informace MMR Odboru regionální politiky Ministerstvo pro místní rozvoj ČR 18. 3. 2016 RSK Jihomoravského kraje Aktuální činnost MMR Odboru regionální politiky Průběžná komunikace se zástupci
Digitální technická mapa ČR Architektura CAGI
Digitální technická mapa ČR Architektura CAGI 10.4.2019 Strategická východiska Informační koncepce České republiky, Koncepce budování egovernmentu v ČR 2018+ https://www.mvcr.cz/soubor/vladni-program-digitalizaceceske-republiky-2018-digitalni-cesko-informacni-koncepcecr.aspx
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
Požadavky trhu práce a praxe v profesním vzdělávání v geoinformatice současná situace v Evropě a u nás Petr KUBÍČEK, Zdeněk STACHOŇ, Milan KONEČNÝ, Tomáš Řezník LGC, MU Brno 16. 5. 2014 Situace na VŠ Málo
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
Sémantický web 10 let poté
Sémantický web 10 let poté Vilém Sklenák sklenak@vse.cz Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství Inforum2011, 26. 5. 2011 Vilém Sklenák
Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič
Jazyky a jazykové technologie v České republice Tomáš Svoboda Jan Hajič 1 Kolik jazyků máme v ČR? Jeden úřední jazyk (čeština) Skutečnost je složitější Turistika Obchod a mezinárodní komerční aktivity
Vzdělávání v inovacích
Inovace ve vzdělávání Vzdělávání v inovacích Praha, 6.prosince 2007 ESF JPD 3 Grantové schéma 4.2 Spolupráce výzkumných a vývojových pracovišť s podnikatelskou sférou, podpora inovací Inkubátor RLZ při
Národní úložiště šedé literatury v roce 2012
Národní úložiště šedé literatury v roce 2012 5. ročník Semináře ke zpřístupňování šedé literatury 23. října 2012 NTK, Praha, Česká republika Petra Pejšová petra.pejsova@techlib.cz Přehled Obhajoba projektu
PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.
PLIN041 Vývoj počítačové lingvistiky Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno Mgr. Dana Hlaváčková, Ph.D. Korpusová lingvistika v ČR lexikografické počátky 1988 Iniciativní skupina pro
České vysoké učení technické v Praze
České vysoké učení technické v Praze Odbor pro vědeckou a výzkumnou činnost, Rektorát Administrace projektů programu HORIZON 2020 Představení informačního portálu https://research.cvut.cz/ Ing. Pavel Koudelák,
Experimentáln. lní plochy VÚRV, v.v.i., Praha 6 - Ruzyně Výzkumné stanice v Jevíčku
VÚRV, v.v.i., Praha 6 Ruzyně VS Jevíčko Ing. Alois Kohoutek, CSc. Ing. Petr Komárek, Ph.D. Ing. Věra V Odstrčilov ilová, Ph.D. Komunikační a interaktivní platformy Výzkumný ústav pícninářský, spol. s r.o.,
Seminární místnost č. 251 Celoživotní vzdělávání ve spolupráci s AIVD, Asociace institucí vzdělávání dospělých a portálem Edumenu.
Doprovodný program Čtvrtek 14. 3. 2013 Seminární místnost č. 251 Celoživotní vzdělávání ve spolupráci s AIVD, Asociace institucí vzdělávání dospělých a portálem Edumenu.cz 10:45-11:00 Jak si vyhledat dobrý
Správa VF XML DTM DMVS Datový model a ontologický popis
Správa VF XML DTM DMVS Datový model a ontologický popis Verze 1.0 Standard VF XML DTM DMVS Objednatel Plzeňský kraj Institut plánování a rozvoje hlavního města Prahy Zlínský kraj Kraj Vysočina Liberecký
Komunikační strategie a plán rozvoje portálu portal.gov.cz
Příloha č. 2 Výzvy - Detailní popis předmětu VZ Komunikační strategie a plán rozvoje portálu portal.gov.cz V rámci dodávky vznikne dokument s analýzou současného stavu Portálu veřejné správy (PVS), určením
Rozpis studentů u maturitní zkoušky
Gymnázium České Budějovice, Jírovcova 8 Třída: 4.A - 4.A (rok nástupu 2010) Termín: pondělí 19. 5. 2014 dopoledne Předseda: Mgr. Soňa Hřídelová Místopředseda: Mgr. Miroslav Habrovanský Třídní: RNDr.Ing.
Problémové domény a jejich charakteristiky
Milan Mišovič (ČVUT FIT) Pokročilé informační systémy MI-PIS, 2011, Přednáška 02 1/16 Problémové domény a jejich charakteristiky Prof. RNDr. Milan Mišovič, CSc. Katedra softwarového inženýrství Fakulta
K vývoji aktivit v organizaci výzkumu
Odborná skupina Organizace výzkumu ČFS JČMF K vývoji aktivit v organizaci výzkumu se zaměřením na hodnocení výsledků Akademické fórum XI 11. březen 2010 Praha Legislativa 2002 až 2009 Zákon 130/2002 Sb.,
Právní datasety. co, proč, kdo a komu. Jakub HARAŠTA. Ústav práva a technologií, Právnická fakulta MU
Právní datasety co, proč, kdo a komu Jakub HARAŠTA Ústav práva a technologií, Právnická fakulta MU Podpořeno Grantovou agenturou České republiky projekt GA17-20645S Obsah Úvod Právní datasety Rozhodovací
Konsolidace zálohování a archivace dat
České vysoké učení technické v Praze Fakulta elektrotechnická Katedra počítačové grafiky a interakce Závěrečná zpráva projektu 493/2013/1 Konsolidace zálohování a archivace dat Řešitel: Jan Kubr Spoluřešitel: