WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY



Podobné dokumenty
KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

1. Přehled cizojazyčných a vícejazyčných korpusů

NLP & strojové učení

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Jak lze v korpusech hledat doklady pro výzkum morfologie?

2. Korpusový portál a volně dostupné nástroje

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Analýza staročeské morfologie v Excelu

Karel Pala, Vít Suchomel

ZÁKON. ze dne..., ĆÁST PRVNÍ. Změna zákona o neperiodických publikacích. Čl. I

Za přiměřenost a adekvátnost tématu odpovídá vedoucí práce.

ve strojovém překladu

ŠABLONY INOVACE OBSAH UČIVA

Workshop o paralelním korpusu InterCorp

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

Pokyny pro obsahové a formální zpracování magisterských diplomových prací na oboru Učitelství ruského jazyka a literatury

Pokyny pro obsahové a formální zpracování bakalářských/magisterských diplomových prací na Ústavu slavistiky FF MU

POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE

ZÁVĚREČNÁ ZPRÁVA. Název akce: Datum: Workshop Využívání specializovaného SW pro vyhledávání rizik

Digitální učební materiál

Pracovní list č. 14 Microsoft Word 2010 jazykové nástroje, reference I Jazykové nástroje

Hodnocení psaní. Seminář Brno

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Bakalářskou práci správně a bez chyb

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Český jazyk skladba. Mgr. Jana Rozumová

Jak psát Bc. resp. Mgr. závěrečnou práci. Zpracoval: Karel Bílek

Stonožka jak se z výsledků dozvědět co nejvíce

MASARYKOVA UNIVERZITA FILOZOFICKÁ FAKULTA STUDIJNÍ KATALOG. Kabinet češtiny pro cizince obor Čeština pro cizince

Masarykova Univerzita Pedagogická Fakulta

Výstupní testování v rámci projektu IMPACT Centra jazykového vzdělávání Masarykovy

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

L A TEX Korektura textu

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Filozofická fakulta Ostravské univerzity v Ostravě. Informace o přijímacích zkouškách podle studijních programů

NĚMECKÝ JAZYK A LITERATURA (jednooborové navazující magisterské studium) N 7310 Filologie

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

ČEŠTINA PRO CIZINCE ČC / JEDNOOBOROVÉ MAGISTERSKÉ STUDIUM PREZENČNÍ

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Čl. 3 Koordinace SVOČ Koordinací realizace SVOČ je pověřen prorektor pro vědu a výzkum v součinnosti s proděkany pro vědu a výzkum fakult.

Jak připravit prezentaci a jak ji prezentovat

Osnova. Koncept a použití prezentací. Seznámení s pracovním prostředím MS Word Režimy zobrazení. Užitečná nastavení. Základní práce s dokumenty

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Jednoduchá sdělení představování, poděkování, pozdrav, omluva Základní výslovnostní návyky

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

ZŠ ÚnO, Bratří Čapků 1332

Tematika XVI. mezinárodního sjezdu slavistů v Bělehradě v r JAZYK Etymologie a historicko-srovnávací výzkum slovanských jazyků.

Zpráva z odborné stáže na Ústavu biofyziky LF UK v Plzni. Problematika transferu technologií ve výuce a praxi

Otevřená data veřejné správy

HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT

ČEŠTINA PRO CIZINCE. ČC / JEDNOOBOROVÉ BAKALÁŘSKÉ STUDIUM PREZENČNÍ (tříleté) Povinné předměty

Popis morfologických značek poziční systém

WORD 2007 grafický manuál

ROZVRH ZIMNÍ SEMESTR 2019/ BAKALÁŘI

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Jazyk, slovo, slovní zásoba a slovníky. Tomáš Káňa Masarykova univerzita v Brně Katedra německého jazyka a literatury

Druhá část semináře je věnována rozšiřování znalostí o reáliích Ruska, zlepšování úrovně dovedností v ústním projevu a literárním čtení.

Vzdělávací obsah vyučovacího předmětu

Soulad studijního programu. Aplikovaná informatika

Operační program Praha Adaptabilita 17.1 Podpora rozvoje znalostní ekonomiky

SBÍRKA ZÁKONŮ ČESKÉ REPUBLIKY

2. POLOLETÍ ÚNOR 2012

MASARYKOVA UNIVERZITA Ekonomicko-správní fakulta

KOREANISTIKA (jednooborové bakalářské studium) B 7310 Filologie

Japonsko-jazyčné online slovníky

53. SETKÁNÍ 4. června 2016

V y p l ň u j í j e d n o t l i v é š k o l y

Téma 1: Proč se učíte česky?

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

Český jazyk v 5. ročníku

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

UNIVERZITA OBRANY Fakulta vojenských technologií. Zpráva o výsledcích přijímacího řízení Fakulty vojenských technologií v roce 2017

Viktor Fuglík. Katedra informačních technologií a technické výchovy, Pedagogická fakulta Univerzity Karlovy v Praze

ICT PLÁN ŠKOLY. Základní charakteristika ZŠ a MŠ

Vojtěch Kořen: Firemní vzdělávací systémy

Helena Hasilová KAROLINUM

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

České internetové medicínské zdroje v Národní lékařské knihovně

Pořadové číslo: 1. Téma Stručná anotace Počet hod

Mobility, které jsme realizovali v rámci programu Erasmus+ během 24 měsíců

Tabulace učebního plánu

Jak dělat strojový překlad lépe než Google Translate

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Střední odborná škola a Střední odborné učiliště Česká Lípa28. října 2707, příspěvková organizace

Jazykové kurzy on-line a pod dohledem tutora

4. UČEBNÍ PLÁN (č.j. 10-1/2011)

Microsoft PowerPoint 2007

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

EU_12_sada2_02_ČJ_Literatura_Dur

Obsah. Úvod 9 Členění knihy 10

Služby katastru nemovitostí. JiříPoláček

Transkript:

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY Datum konání: 11. dubna 2014 Místo konání: Filozofická fakulta Masarykovy univerzity (učebna G13) Název přednášky: Přednášející: Webové korpusy Aranea a vícejazyčné kolokační profily Ing. Vladimír Benko Počet účastníků: 15 Zpracovali: Poláčková Lucie, Tomanová Kateřina Dne 11. dubna 2014 se konala tento semestr již třetí přednáška externího odborníka, týkající se počítačového zpracování přirozeného jazyka a spadající pod předmět Odborná přednáška a exkurze II. Zúčastnilo se celkem 15 posluchačů. Expert Ing. Vladimír Benko, nás nejprve obeznámil s teoretickými informacemi z oblasti webového korpusu, blíže nás seznámil s korpusem Aranea a se systémem Word Sketch Engine. Během druhé části přednášky, která byla zaměřena prakticky, jsme byli poučeni o základech práce v již zmíněném systému Word Sketch Engine.

Ing. Vladimír Benko Vladimír Benko vystudoval na technické univerzitě obor se zaměřením na kybernetiku. Od 90. let úzce spolupracuje s Pedagogickou fakultou Univerzity Komenského v Bratislavě a s Jazykovědným ústavem Ľudovíta Štúra. Podílel se na tvorbě Slovníku pořadových morfémů, který obdržel v roce 2005 cenu Slovenského literárního fondu. Publikuje odborné články a jeho hlavním zaměřením je spolupráce s lingvisty na aspektech slovníku. V roce 2007 se zúčastnil semináře s názvem Lexikon, který jej inspiroval k práci se systémem Sketch Engine, který následně upravoval. Nyní se také věnuje kurzům o webových korpusech pro jiné katedry. Textový jazykový korpus (lat. Corpora) Jedná se o rozsáhlou sbírku textů v elektronické podobě, díky níž je možné nalézt slova a slovní spojení v kontextu a získat jejich frekvenci a původní textový zdroj. Textový jazykový korpus je budován s úmyslem získat reprezentativní vzorek jazyka, otázkou však zůstává, jak zjistit daný vzorek, abychom dosáhli co nejpřesnější informace o něm. Hlavními body korpusu jsou reprezentativnost spolu s vyvážeností informací a dat. Vyhledávání v textovém korpusu Všechna hledaná slova musí být psána malými písmeny. Ve slovníku jsou problémy s adjektivy a podobný problém se týká i zkratek. Apostrofy jsou součástí prvního písmene, patří tedy k základnímu tvaru (např. francouzština).

Dělení korpusů Z hlediska jazyka lze korpusy dělit do dvou skupin, na jednojazyčné a dvoj- či vícejazyčné. Dvojjazyčný a vícejazyčný korpus může obsahovat vzájemné překlady textů, takový korpus je označován jako paralelní. Vícejazyčné porovnatelné korpusy jsou stejné co se žánru, velikosti nebo kupříkladu doby vzniku textu týče. Korpusy z hlediska původu textu jsou buď tradiční, tedy ty, které jsou pokryty autorským zákonem získaným od majitelů autorských práv, nebo webové, u nichž je vlastnictví autorských práv nejasné. Do tradičních korpusů spadá beletrie, odborná literatura, publicistika nebo právní dokumenty. Webové korpusy obsahují texty získané z internetu. Webový korpus Webové korpusy se od těch tradičních liší z hlediska žánrů a registrů. K žánrům patří firemní prezentace, osobní stránky, blogy, diskuze a podobně. Zde je ale také velký podíl neformálního jazyka, nestandardní ortografie, chybějící diakritiky, chyb v pravopise a jiných nedostatků. Krom toho může docházet k míšení jazyků, zejména v internetových diskuzích. Rozdíl je také v době vzniku textu, ve webových korpusech převládají mladší texty (z posledních 5 10 let) a ve velikosti, internet totiž nabízí možnost vytvořit korpus až o několik řad větší, než jsou největší existující tradiční korpusy. Prvním bodem tvorby webového korpusu je stahování dat z internetu metodou tzv. kalkulování. Dále se text musí extrahovat, což znamená, že se musí odstranit strukturní značky a grafické prvky. Je nutné odstranit i navigační prvky a konstantní části stránek, do nichž spadají reklamy a odkazy označované také jako boilerplate. Jelikož jsou jazyky na internetu různě promíchány, provádí se jazyková filtrace

založená na odstranění textu v cizím jazyce s nesprávnou diakritikou. Velký problém u webových korpusů je deduplikace dokumentů, což je množina identických dokumentů. Z této množiny je žádoucí ponechání jen jedné kopie. Mezi standardní postupy a nástroje korpusové lingvistiky patří segmentace (členění odstavců a vět), tokenizace (členění na textová slova), lematizace (přiřazování slovům jejich základní tvar), tagging (přiřazování morfologické značky). Korpus Aranea Název korpusu pochází z latinského slova araneum, které označuje pavučinu a obsahuje jazyky, kterými se mluví na Slovensku a v okolních krajinách, zahrnuje převážně cizí jazyky. Dělí se na čtyři verze podle velikosti: Maius základní, obsahující asi 1 miliardu tokenů Minus obsahuje zhruba 100 milionů tokenů, užívaný ve vyučování Minimum 10 milionů tokenů Maximum zhruba 5,5 miliardy tokenů jen pro češtinu Zpřístupněné verze: Připravované verze:

Word Sketch Engine Program Word Sketch Engine obsahuje automatické výčty na bázi korpusu, které zobrazují gramatické a kolokační chování slov. Kolokační profil je soubor pravidel, definující kolokační vztahy podle potřeb uživatele. Kolokační gramatika je založena na jazyce CQL (Corpus Query Language). Ukázka práce webového korpusu cztenten, kde klíčovým slovem bylo víno. Druhá polovina přednášky byla zaměřena na praktické užití programu Word Sketch Engine. Do systému jsme zadali slovo láska, které nám vygenerovalo 10 sloupců. Word Sketch Engine lze používat i v mnoha dalších jazycích. modifier = přívlastky shodné, stojící vlevo od hledaného výrazu (boží láska) prec_prep = předložka vlevo (s láskou) gen 2 = genitivní vztah dvou substantiv (bohyně lásky) coord = vztah lexikálně vyjádřené koordinace s jednotkou stejné třídy (láska a nenávist)

post_k = předložka se 3. pádem (láska k létání) post_verb = verbum vpravo (láska vítězí) is_subj_of = hledaný výraz je podmětem (láska vyprchá) is_obj4_of = výraz je předmětem ve 4. pádě (vyznávat lásku) prec_verb = verbum vlevo (zahořet láskou) prec_o = předložka s 6. pádem (píseň o lásce) Závěr Přednáška byla velmi obohacující jak v teoretické části, ve které nám Ing. Vladimír Benko představil webový korpus Aranea a vícejazyčné kolokační profily, tak hlavně v praktické části, ve které jsme si mohli vyzkoušet fungování programu Word Sketch Engine. Prezentace Ing. Benka je dostupná v dokumentovém serveru ISu. Cesta je: Dokumenty Filozofická fakulta Pracoviště Centrum počítačové lingvistiky.