KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze

O (Ú)ČNK Ústav Českého národního korpusu, založen v roce 1994 prof. Františkem Čermákem jedna z kateder FF UK hlavním dlouhodobým projektem je ČNK obecné i specializované semináře a přednášky pro studenty i veřejnost (překladatele, učitele apod.) doktorské studium v oboru korpusová lingvistika

O ČNK Cílem ČNK je: dlouhodobě a podrobně mapovat vývoj češtiny, jak historické, tak současné sestavovat a spravovat korpusy a zajišťovat k nim veřejný přístup provádět výzkum vytvářet nové, uživatelsky zaměřené specializované korpusové nástroje http://www.korpus.cz/ Informace o ČNK, manuály a přístup ke korpusům

O ČNK ČNK jako národní výzkumná infrastruktura (od roku 2012) bylo schváleno pouze 15 projektů velké infrastruktury ze všech oblastí, ČNK jako vzorový projekt financováno v rámci aktivity Projekty velkých infrastruktur pro VaVaI, MŠMT (LM2011023) cíle: budování korpusů a jejich anotace, hostování korpusů, zajišťování veřejného přístupu, jazykové zdroje (balíčky dat)

Přístup ke korpusům ČNK Přístup ke korpusům je pro všechny uživatele ZDARMA nezbytná elektronická registrace více než 3 000 aktivních registrovaných uživatelů přibližně 1 200 dotazů/den Software: server: Manatee (autor: Pavel Rychlý z MU Brno) klient: Bonito/The Sketch Engine nebo Park v plánu nové rozhraní pro jednojazyčné i vícejazyčné korpusy

Dostupné korpusy ČNK Synchronní korpusy psané češtiny: řada SYN Synchronní korpusy mluvené češtiny: řada ORAL Diachronní korpus (14. 20. století): DIAKORP Paralelní korpus (22 evropských jazyků): InterCorp Malé specializované korpusy (Deaf, Dopisy a další)

Synchronní psané korpusy název velikost popis SYN2000 100 mil. vyvážený korpus; většina textů z let 1990 1999 SYN2005 100 mil. vyvážený korpus; většina textů z let 2000 2004 SYN2006PUB 300 mil. publicistické texty z let 1989 2004 SYN2009PUB 700 mil. publicistické texty z let 1995 2007 SYN2010 100 mil. vyvážený korpus; většina textů z let 2005 2009 SYN 1 300 mil. nereferenční korpus, souhrn všech SYN korpusů všechny korpusy lemmatizovány a morfologicky označkovány vyvážený korpus jednou za 5 let referenční vs. nereferenční korpusy

Synchronní psané korpusy Kritérium reprezentativnosti: recepce vs. produkce korpusy řady SYN založeny na recepci (tj. co se čte) distribuce text. typů a žánrů na základě sociologické studie z roku 2000 nová studie je třeba Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu) beletrie: především novější, ale limitem je rok vydání 1945 (autoři narození po 1880) publicistika: současná (za každý rok stejný objem textu) odborná literatura: po roce 1990

Synchronní mluvené korpusy název velikost popis ORAL2006 1 mil. korpus neformální mluvené češtiny ORAL2008 1 mil. sociolingvisticky vyvážený korpus neformální mluvené češtiny referenční korpusy po zveřejnění se nemění neformální situace konverzace v rodině nebo s přáteli není lemmatizace, ani značkování zatím nespolehlivé dialektismy a hovorové výrazy plánovaný ORAL2013: data sbírána z celé republiky (nejen z Čech) transkripce zarovnána se zvukovou stopou plánovaný ORAL protějšek SYNu, nereferenční, lemmatizovaný a značkovaný

Diachronní korpus název velikost popis DIAKORP 2 mil. korpus mapující sedm století vývoje češtiny (14. 20. století) nereferenční korpus transkripce, nikoli transliterace plánovaná lemmatizace a značkování především 19. století hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu

Paralelní korpus název velikost popis InterCorp v současnosti 542 mil. (92 mil. beletrie, zbytek kolekce dat) paralelní korpus zahrnující 27 evropských jazyků ve spolupráci s dalšími ústavy a univerzitami stále roste zarovnání na úrovni vět lemmatizace a značkování u těch jazyků, kde je k dispozici čeština jako pivot

Vyhledávací rozhraní No Sketch Engine

Korpus SYN

Korpus Oral

Nové korpusové nástroje SyD: webový nástroj pro průzkum variant synchronní i diachronní perspektiva využívá korpusů SYN2010, ORAL2008 a DIAKORP živé vizualizace a uživatelsky příjemné prostředí bez registrace na syd.korpus.cz! Morfio: nástroj pro studium slovotvorby v češtině vyhledává v korpusu podobně utvořená slova podle zadaného vzoru (sufixu či prefixu), umí je i porovnat Keywords: dokáže v textu najít klíčová slova a porovnat je s ref. textem