KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!



Podobné dokumenty
1. Přehled cizojazyčných a vícejazyčných korpusů

2. Korpusový portál a volně dostupné nástroje

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Koncepce rozvoje Ústavu Českého národního korpusu v období Václav Cvrček, Ph.D.

Workshop o paralelním korpusu InterCorp

ve strojovém překladu

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

ZÁKON. ze dne..., ĆÁST PRVNÍ. Změna zákona o neperiodických publikacích. Čl. I

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

K možnostem počítačového zpracování literárního textu

Specializované korpusy mluveného jazyka - jejich tvorba a využití

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Karel Pala, Vít Suchomel

Středoškolská technika 2013 VYUŽITÍ JAZYKOVÝCH KORPUSŮ NA STŘEDNÍCH ŠKOLÁCH (S DŮRAZEM NA PARALELNÍ KORPUS INTERCORP)

NĚMECKÝ JAZYK A LITERATURA (jednooborové navazující magisterské studium) N 7310 Filologie

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA

DISCORD. Návod k použití pro IVAO-CZ. Zpracoval: Jan Podlipský

Korpusy a jejich využití ve výuce českého jazyka na ZŠ A SŠ

Intercorp schůzka paralelistů

OP VVV - Co už máme za sebou

Učebnice, cvičebnice, CD-Rom, počítačová učebna, dataprojektor, interaktivní tabule, mapy anglicky mluvících zemí

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

Sdělení děkana Filozofické fakulty Univerzity Karlovy číslo.../2016. Čl. 1 Úvodní ustanovení

SEKCE J INFORMAČNÍ A KOMUNIKAČNÍ SLUŽBY

Veřejný dálkový přístup (VDP) k datům základního registru RÚIAN/ISÚI

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

ROMISTIKA. Univerzita Karlova, Filozofická fakulta, Ústav jižní a centrální Asie

více než 5 let 2 min. podmínka - nejedná se o DPP, min. podmínka - nejedná se o DPP, DPČ

Specializovaný korpus BANÁT a jeho využití

bakalářském a magisterském stupni VŠ vzdělání

Seminář ASEP Kolektiv ASEP Knihovna AV ČR, v. v. i. Praha Brno

SíťIT: Portál na podporu sociální sítě informatiků v ČR

Předmět: ANGLICKÝ JAZYK Ročník: 6.

Výzkum variability v korpusech češtiny

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

ELDEL - Podpora vývoje gramotnosti v evropských jazycích

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

Strana 1. Zasedání KD -

OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie

Pro malé i obří projekty

JERONÝMOVY DNY 2010 pátek 5. listopadu 2010 K-centrum, Senovážné nám. 23, Praha 1-5. a 6. listopadu 2010

POKROČILÁ KARTOGRAFICKÁ TVORBA v prostředí ArcMap

Přírodní vědy. Doplňující pedagogické studium - geografie - učitelství pro SŠ a ZŠ

Validita korpusu ORAL2013. Mgr. Jan Chromý, Ph.D.

ÚSTAV ROMÁNSKÝCH STUDIÍ. Hispanistika urs.ff.cuni.cz

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Antiplagiátorské nástroje pro naše repozitáře

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

Setkání fakultních koordinátorů e-learningu v 10 hodin

Publikační činnost. Václav Cvrček

Ústav českého jazyka a teorie komunikace Ústav české literatury a komparatistiky

AKTUALIZACE DLOUHODOBÉHO ZÁMĚRU

Wednesday, April 7, 2010 DIGITÁLNÍ STUDENT

Příloha 2: České pedagogické odborné časopisy (stav k červenci 2011) 1

ŽURNALISTIKA 1. ROČNÍK. Poznámky k rozvrhu pro LS a pokyny pro zápis do STAGu

Prostředí pro spolupráci Multimédia

Klíčové faktory úspěchu spolupráce průmyslu s výzkumem

Konference projektu ROMODIS Inteligentní dopravní systémy Rozvoj, výzkum, aplikace , Ostrava

VDP Veřejný dálkový přístup kdatům RÚIAN

Základní legislativní dokumenty. Mgr. Monika Oravová

Podíl studentů na výzkumu dějin českého pravopisu; pořádání konferencí v rámci projektu

Základní legislativní dokumenty

Stonožka jak se z výsledků dozvědět co nejvíce

Obsah a značkování diachronního korpusu češtiny 1

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Economists Online: nový portál pro ekonomické vědy

Biskupské gymnázium Žďár nad Sázavou vyšší stupeň osmiletého gymnázia, čtyřleté gymnázium. Receptivní řečové dovednosti

ÚSTAV ROMÁNSKÝCH STUDIÍ. Oddělení portugalistiky urs.ff.cuni.cz

KOREANISTIKA (jednooborové bakalářské studium) B 7310 Filologie

Předmět: Konverzace v ruském jazyce

CzechELib. Národní centrum pro elektronické informační zdroje. Jiří Jirát. CzechELib Zlín

Digitální knihovna MZK: její vývoj, mobilní aplikace a uživatelé

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda

ÚSTAV ROMÁNSKÝCH STUDIÍ. Oddělení italianistiky urs.ff.cuni.cz Den otevřených dveří FF UK

Očekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)

Očekávané výstupy RVP Školní výstupy Učivo Poznámky (průřezová témata, mezipředmětové vztahy apod.) Řečové dovednosti

Operační program Podnikání a inovace Cesta k rozvoji Vašeho podniku

P 7310 Filologie SLOVANSKÉ LITERATURY

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

PILÍŘE UNIVERZITNÍHO STUDIA

Popis vzdělávacího programu nabízeného v současné době v podobě rozšiřujícího tříletého (6 semestrů) studia; akreditovaný program MŠMT

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk a literatura: Komunikační a slohová výchova - ročník: PRIMA

Jak efektivně pracovat s ekonomickými informacemi? Petr Musil Bisnode a.s.

Anotace žákovského korpusu. Alena Poncarová Žďárek, Listopad 2011

STUDIJNÍHO PROGRAMU ŽURNALISTIKA

IA161 Pokročilé techniky zpracování přirozeného jazyka

Datová úložiště CESNET

Diversity Management pro OZP z perspektivy Ostravské univerzity (dále OU) Zdeňka Telnarová

ArcGIS Online Subscription

ZÁKLADNÍ CHARAKTERISTIKA

Šedá literatura jako zdroj odborných informací

UNIVERZITA PALACKÉHO V OLOMOUCI. katedra bohemistiky

ČESKÝ JAZYK A LITERATURA (dvouoborové navazující magisterské studium) N 7310 Filologie (Platnost akreditace:

Centra kompetence Informační seminář k vyhlášení 2. veřejné soutěže

ROMÁNSKÉ JAZYKY A ČEŠTINA VE SVĚTLE PARALELNÍCH KORPUSŮ

Transkript:

KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze

O (Ú)ČNK Ústav Českého národního korpusu, založen v roce 1994 prof. Františkem Čermákem jedna z kateder FF UK hlavním dlouhodobým projektem je ČNK obecné i specializované semináře a přednášky pro studenty i veřejnost (překladatele, učitele apod.) doktorské studium v oboru korpusová lingvistika

O ČNK Cílem ČNK je: dlouhodobě a podrobně mapovat vývoj češtiny, jak historické, tak současné sestavovat a spravovat korpusy a zajišťovat k nim veřejný přístup provádět výzkum vytvářet nové, uživatelsky zaměřené specializované korpusové nástroje http://www.korpus.cz/ Informace o ČNK, manuály a přístup ke korpusům

O ČNK ČNK jako národní výzkumná infrastruktura (od roku 2012) bylo schváleno pouze 15 projektů velké infrastruktury ze všech oblastí, ČNK jako vzorový projekt financováno v rámci aktivity Projekty velkých infrastruktur pro VaVaI, MŠMT (LM2011023) cíle: budování korpusů a jejich anotace, hostování korpusů, zajišťování veřejného přístupu, jazykové zdroje (balíčky dat)

Přístup ke korpusům ČNK Přístup ke korpusům je pro všechny uživatele ZDARMA nezbytná elektronická registrace více než 3 000 aktivních registrovaných uživatelů přibližně 1 200 dotazů/den Software: server: Manatee (autor: Pavel Rychlý z MU Brno) klient: Bonito/The Sketch Engine nebo Park v plánu nové rozhraní pro jednojazyčné i vícejazyčné korpusy

Dostupné korpusy ČNK Synchronní korpusy psané češtiny: řada SYN Synchronní korpusy mluvené češtiny: řada ORAL Diachronní korpus (14. 20. století): DIAKORP Paralelní korpus (22 evropských jazyků): InterCorp Malé specializované korpusy (Deaf, Dopisy a další)

Synchronní psané korpusy název velikost popis SYN2000 100 mil. vyvážený korpus; většina textů z let 1990 1999 SYN2005 100 mil. vyvážený korpus; většina textů z let 2000 2004 SYN2006PUB 300 mil. publicistické texty z let 1989 2004 SYN2009PUB 700 mil. publicistické texty z let 1995 2007 SYN2010 100 mil. vyvážený korpus; většina textů z let 2005 2009 SYN 1 300 mil. nereferenční korpus, souhrn všech SYN korpusů všechny korpusy lemmatizovány a morfologicky označkovány vyvážený korpus jednou za 5 let referenční vs. nereferenční korpusy

Synchronní psané korpusy Kritérium reprezentativnosti: recepce vs. produkce korpusy řady SYN založeny na recepci (tj. co se čte) distribuce text. typů a žánrů na základě sociologické studie z roku 2000 nová studie je třeba Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu) beletrie: především novější, ale limitem je rok vydání 1945 (autoři narození po 1880) publicistika: současná (za každý rok stejný objem textu) odborná literatura: po roce 1990

Synchronní mluvené korpusy název velikost popis ORAL2006 1 mil. korpus neformální mluvené češtiny ORAL2008 1 mil. sociolingvisticky vyvážený korpus neformální mluvené češtiny referenční korpusy po zveřejnění se nemění neformální situace konverzace v rodině nebo s přáteli není lemmatizace, ani značkování zatím nespolehlivé dialektismy a hovorové výrazy plánovaný ORAL2013: data sbírána z celé republiky (nejen z Čech) transkripce zarovnána se zvukovou stopou plánovaný ORAL protějšek SYNu, nereferenční, lemmatizovaný a značkovaný

Diachronní korpus název velikost popis DIAKORP 2 mil. korpus mapující sedm století vývoje češtiny (14. 20. století) nereferenční korpus transkripce, nikoli transliterace plánovaná lemmatizace a značkování především 19. století hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu

Paralelní korpus název velikost popis InterCorp v současnosti 542 mil. (92 mil. beletrie, zbytek kolekce dat) paralelní korpus zahrnující 27 evropských jazyků ve spolupráci s dalšími ústavy a univerzitami stále roste zarovnání na úrovni vět lemmatizace a značkování u těch jazyků, kde je k dispozici čeština jako pivot

Vyhledávací rozhraní No Sketch Engine

Korpus SYN

Korpus Oral

Nové korpusové nástroje SyD: webový nástroj pro průzkum variant synchronní i diachronní perspektiva využívá korpusů SYN2010, ORAL2008 a DIAKORP živé vizualizace a uživatelsky příjemné prostředí bez registrace na syd.korpus.cz! Morfio: nástroj pro studium slovotvorby v češtině vyhledává v korpusu podobně utvořená slova podle zadaného vzoru (sufixu či prefixu), umí je i porovnat Keywords: dokáže v textu najít klíčová slova a porovnat je s ref. textem