cstenten17, a Recent Czech Web Corpus

Podobné dokumenty
Technical Report Series on Corpus Building

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Compression of a Dictionary

Syntactic annotation of a second-language learner corpus

Translation Model Interpolation for Domain Adaptation in TectoMT

Website review vaznikystrechy.eu

DIACRAN: a framework for diachronic analysis

Výjezdy zaměstnanců VUT v Brně na školení ERASMUS. Statistiky za akademický rok 2010/2011

Dashboard. 1 May May 2012 Comparing to: Site. 7,099 Visits % Bounce Rate. 00:01:54 Avg. Time on Site.

Website review ciporat.ru

Dashboard. 1 Feb Feb 2012 Comparing to: Site. 4,776 Visits % Bounce Rate. 00:02:30 Avg. Time on Site.

Vybrané aktuální projekty Centra ZPJ. Kolokace a dokumenty. Metody. Kontext:,,One-click dictionary post-editing lexicography

Universal Dependencies and non-native Czech

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

CARBONACEOUS PARTICLES IN THE AIR MORAVIAN-SILESIAN REGION

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

Měsíční statistika Listopad 2015 Monthly Statistics November 2015

Měsíční statistika Prosinec 2015 Monthly Statistics December 2015

Zdeňka Lipovská. This project is implemented through the CENTRAL EUROPE Programme co-financed by the ERDF.

Karel Pala, Vít Suchomel

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Návštěvy. Aug 1, Aug 31, This report shows the number of visits to your web site during the selected period.

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

Návštěvy. Sep 1, Sep 30, This report shows the number of visits to your web site during the selected period.

Jak importovat profily do Cura (Windows a

II_ _Listening Pracovní list č. 2.doc II_ _Listening Pracovní list č. 3.doc II_ _Listening Řešení 1,2.doc

Litosil - application

FUNKČNÍ VZOREK FUNKČNÍ VZOREK ZAŘÍZENÍ HTPL-A PRO MĚŘENÍ RELATIVNÍ TOTÁLNÍ EMISIVITY POVLAKŮ

BTS and Development of Confidence Indicators

Plánované a nadcházející inovace kapslových produktů / Planned and upcoming innovations of capsule products

Statistika pro ( )

Měsíční statistika Březen 2016 Monthly Statistics March 2016

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

TERMS & CONDITIONS 2019

Měsíční statistika Červenec 2015 Monthly Statistics July 2015

Textmining a Redukce dimenzionality

Čtvrtý Pentagram The fourth Pentagram

Publish date 6/23/2012 4:23 AM. Bid due date 7/23/ :00 AM. Change date 6/23/2012 4:23 AM

Czech Crystal in Chengdu 2016 捷克水晶闪亮成都

Aktivita FCE V. Stručný popis aktivity: žáci si prohloubí slovní zásobu, práci s textem

Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Questions

SPOLUPRÁCE - KOORDINÁTOR/KA ZAHRANIČNÍCH KURZŮ

Publish date 9/13/2013 4:22 AM. Bid due date 11/4/ :00 AM. Change date 9/13/2013 4:22 AM

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

Výjezdy zaměstnanců VUT v Brně na výukové pobyty ERASMUS. Statistiky za akademický rok 2009/2010

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Psaná podoba jazyka, slovní zásoba

WEB CORPUS IN ONE CLICK

Statistika pro light4sport.cz ( )

Návštěvy. Dec 1, Dec 31, This report shows the number of visits to your web site during the selected period.

Publish date 12/27/2012 4:24 AM. Bid due date 3/4/ :00 AM. Change date 12/27/2012 4:24 AM

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Drags imun. Innovations

Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually

Název sady: Anglický jazyk pro 2. ročník čtyřletých maturitních uměleckořemeslných oborů. Studijní obor: L/* uměleckořemeslné maturitní obory

Focused web crawling in the acquisition of comparable corpora

Postup objednávky Microsoft Action Pack Subscription

Social Media a firemní komunikace

4 TABULKY ZÁKLADNÍCH STATISTICKÝCH CHARAKTE- RISTIK TÌLESNÝCH ROZMÌRÙ TABLES OF BASIC STATISTICAL CHARACTERISTICS OF BODY PARAMETERS

Website review worn.cz

MLÉKÁRENSKÝ PRŮMYSL V ČR PO VSTUPU DO EU THE DAIRY INDUSTRY IN THE CZECH REPUBLIC AFTER THE INTEGRATION IN THE EU. Renata Kučerová

půjčky do 3 tisic jedna noc. Do hlavního vysílacího času se pak mají vrátit některé programy, jako třeba Ozák. Incident 1:Since I started the Qubee

Návštěvy. Feb 1, Feb 29, This report shows the number of visits to your web site during the selected period.

MĚSTA (RODNÉ MĚSTO A DALŠÍ DŮLEŽITÁ MĚSTA) MICHAL KADLEC, DIS

Co je to Proquest? Tři databáze

Projekt MŠMT ČR: EU peníze školám

ENVIRONMENTAL EDUCATION IN.

Jakub Zavodny (University of Oxford, UK)

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

IBM Connections pro firmy s Lotus Notes/Domino. Petr Kunc

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

INFLUENCE OF CONSTRUCTION OF TRANSMISSION ON ECONOMIC PARAMETERS OF TRACTOR SET TRANSPORT

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

Petr Plecháč Robert Ibrahim (Institute of Czech Literature AS CR) DATABASE OF CZECH VERSE

Statistical Recognition of References in Court Decisions

Statistika pro light4sport.cz ( )

EKONOMIKA VÝROBY MLÉKA V ROCE 2011 ECONOMICS OF MILK PRODUCTION 2011

The form of the verb in past simple is the same for all persons. In questions and negatives we use did/didn t auxiliary verb and the base form.

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Návštěvy. Jul 1, Jul 31, This report shows the number of visits to your web site during the selected period.

Gymnázium, Brno, Elgartova 3

ihned půjčka na open. There are 2 records on this site title. Kde a jaké má FIO banka Prosinec 2015 Listopad 2015 Říjen 2015 Září 2015 Červenec 2015

1 z :17

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

ROČENKA 2017 / FACT BOOK 2017 CENTRÁLNÍ DEPOZITÁŘ CENNÝCH PAPÍRŮ, A.S. CENTRAL SECURITIES DEPOSITORY PRAGUE

Návštěvy. Jul 1, Jul 30, This report shows the number of visits to your web site during the selected period.

ROČENKA 2017 / FACT BOOK 2017 BURZA CENNÝCH PAPÍRŮ PRAHA, A.S. PRAGUE STOCK EXCHANGE

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

ESPD & e-certis support on the way o once-only principle in e-procurement

MINIMIZING LEAKAGES AS PART OF A CONCEPTUAL STRATEGY IN WATER SUPPLY SYSTEM MASTER PLANS

Co vím o Ázerbájdžánu?

Měsíční statistika Únor 2016 Monthly Statistics February 2016

Advertisement Summary outside the Europark Shopping Centre: Europark Newspaper Country radio Web pages of The Foundation of Our Child

Měsíční statistika Květen 2016 Monthly Statistics May 2016

Karta předmětu prezenční studium

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Transkript:

cstenten17, a Recent Czech Web Corpus Vít Suchomel vit.suchomel@sketchengine.co.uk December 8, 2018 Raslan 2018 Vít Suchomel cstenten17 Raslan 2018 1 / 29

Outline 1 Introduction 2 Corpus Construction And Properties 3 Comparison With Other Recent Corpora 4 Conclusion & Future Work Vít Suchomel cstenten17 Raslan 2018 2 / 29

Recent Czech Big Corpora cztenten12 (2011) Hector (2011) SYN 2015 (2010 2014) Araneum Bohemicum (2013 2016) csskell (2016) cstenten17 (2015 2017) Vít Suchomel cstenten17 Raslan 2018 3 / 29

Why To Build New Corpora? Up-to-date written form of the target language Text from a particular year to add to a diachronic corpus The web grows the corpus size grows Vít Suchomel cstenten17 Raslan 2018 4 / 29

1 Introduction 2 Corpus Construction And Properties 3 Comparison With Other Recent Corpora 4 Conclusion & Future Work Vít Suchomel cstenten17 Raslan 2018 5 / 29

Crawling Crawler SpiderLing Sites providing Czech text (no limit to the Czech TLD) Oct Nov 2015, Oct Nov 2016, and May, Oct, Nov 2017 Vít Suchomel cstenten17 Raslan 2018 6 / 29

Crawling Seed URLs cstenten12 document sources Good quality content site lists dmoz.org and urlblacklist.com Bing search results for Czech words Czech web news sites (blisty.cz, ihned.cz, lidovky.cz, novinky.cz, reflex.cz, seznam.cz Vít Suchomel cstenten17 Raslan 2018 7 / 29

Data Processing Steps I Encoding detection (Chared = byte trigrams) Language identification Documents (Justext = frequent Czech words) Paragraphs (character trigrams) Documents & paragraphs (wordlists of 13 languages) HTML splitting to paragraphs & boilerplate removal (Justext) Duplicate removal Exact documents (text hashes) Similar paragraphs (Onion = word 5-grams) Vít Suchomel cstenten17 Raslan 2018 8 / 29

5 % of paragraphs were removed Examples of removed text (non Czech words in bold): 23 Solo Pieces for La Naissance de L Amour je soundtrackové album velšského multiinstrumentalisty Johna Calea. Album vyšlo v roce 1993 u vydavatelství Les Disques du Crépuscule. Album produkoval Jean-Michel Reusser. 1 Nice hotel at a good location. Rooms very good, but beds a little bit hard. The staff was nice and helpful. Nice location close to Konakli center with lot of shops and market on Wednesdays. Nice... celá recenze s možností překladu. 2 1 Text source: https://cs.wikipedia.org/wiki/23_solo_pieces_for_la_naissance_de_l'amour 2 Text source: https://www.ellagris.cz/turecko/turecka-riviera/alanya/ royal-garden-select-626634 Vít Suchomel cstenten17 Raslan 2018 9 / 29

Corpus Frequency Wordlists (Sample) Czech Czech no diac. Slovak Slovak no diac. který 8395917 bylo 6895481 keď 1222751 ze 910030 bude 8367336 aby 6637007 ak 1155099 mi 882506 byl 8026382 byla 6411943 vo 1143786 ani 849737 mi 7559285 pak 6322052 ktorý 1040954 ho 793819 má 7497525 ze 5898536 jeho 1022330 bolo 789226 také 7288326 pokud 5842344 bol 926324 tu 771362 jeho 7279924 ani 5674096 bude 922604 i 755527 při 7159444 podle 5139103 ze 910030 so 742042 bylo 6895481 tam 5098763 mi 882506 ja 735404 ještě 6831030 kde 4922387 ani 849737 roku 734158 až 6802987 jejich 4717935 či 840464 zo 718430 není 6795056 toho 4652283 má 838858 pred 684540 aby 6637007 asi 4644219 však 810090 bola 659994 byla 6411943 ho 4626361 ho 793819 viac 653439 Vít Suchomel cstenten17 Raslan 2018 10 / 29

Sample Paragraph With Words Scored Score = Sum of logarithms of relative frequencies of words in the wordlists = word score for CS xcs SK xsk EN DE PL SL HR FR Solo 3.35 3.64 3.34 3.56 4.36 3.92 3.84 4.13 4.23 4.23 Pieces 2.29 2.58 2.33 2.54 4.76 2.75 2.42 2.48 2.72 3.56 for 4.49 4.77 4.47 4.69 7.07 4.67 4.64 4.56 4.93 4.62 La 4.62 4.90 4.55 4.77 4.93 4.80 4.63 4.61 4.77 7.42 Naissance 1.12 1.41 1.05 1.27 1.69 1.32 1.78 1.18 0.82 4.87 de 4.96 5.25 4.92 5.14 5.28 5.15 4.95 4.97 4.93 7.69 L 4.95 5.24 5.01 5.23 4.80 4.74 4.89 4.61 4.74 5.39 Amour 2.59 2.87 2.49 2.71 2.83 2.95 2.52 2.56 2.72 5.30 je 7.16 7.45 7.15 7.37 3.55 5.44 5.77 7.51 7.50 6.76 soundtrackové 1.30 0.00 0.87 0.00 0.00 0.00 0.00 0.00 0.00 0.00 album 4.59 4.87 4.76 4.98 4.74 4.83 4.56 4.78 4.90 4.93 velšského 2.13 0.00 0.75 0.00 0.00 0.00 0.00 0.00 0.00 0.00 multi...isty 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Johna 4.07 4.36 3.93 4.15 1.33 1.13 3.92 3.88 4.05 0.56 Calea 1.66 1.95 1.59 1.81 2.13 1.38 1.46 1.54 2.03 1.35 ------------------------------------------------------------------------- = sum 49.28 49.29 47.21 48.22 47.47 43.08 45.38 46.81 48.34 56.68 Vít Suchomel cstenten17 Raslan 2018 11 / 29

Data Processing Steps II Tokenisation (Unitok) Lemmatisation (Majka) Tagging (Majka + Desamb) Gender respecting lemma ( veřejné knihovně veřejná knihovna ) Indexed for search (Manatee/Sketch Engine) Precomputed frequencies, word sketches, thesaurus, subcorpora, terms (Manatee/Sketch Engine) Thanks to my colleague Marek Medveď for running the tagger. Vít Suchomel cstenten17 Raslan 2018 12 / 29

Collecting Wikipedia Wiki2Corpus November 2017 Pages & talks Vít Suchomel cstenten17 Raslan 2018 13 / 29

Corpus Vertical Sample <doc id="4235757" src="web17" title="matěj Kouba - Blog idnes.cz" length="5k-10k" enc_chared="cp1252" crawl_date="2017-11-09 22:53" ip="185.17.117.47" url="https://kouba.blog.idnes.cz/?strana=4" <p heading="no"> <s> Šel k5eaaimagmns jít-v jít jsem k5eaaimip1ns být-v být tuhle k6ead1 tuhle-a tuhle za k7c7 za-p za svou k3xoyfgfnsc7 svůj-d svůj osmdesátiletou k2eagfnsc7d1 osmdesátiletý-j osmdesátiletá maminkou k1gfnsc7 maminka-n maminka <g/>. kix..-x. </s> </p> </doc> Vít Suchomel cstenten17 Raslan 2018 14 / 29

Corpus Size 12,586,415,546 tokens in 35,995,251 documents 91 % of tokens from TLD.cz Total Wiki Talk W17 W16 W15 Tokens 12,586,415,546 0.97 % 0.09 % 58 % 32 % 8.4 % Words 10,502,222,474 Sentences 738,085,256 Paragraphs 227,097,470 Documents 35,995,251 1.00 % 0.09 % 62 % 30 % 7.6 % Vít Suchomel cstenten17 Raslan 2018 15 / 29

Lexicon Sizes Word form 40,445,706 Lemma 29,100,249 Gender respecting lemma 34,014,060 Tag 2,247 Part of speech 15 Vít Suchomel cstenten17 Raslan 2018 16 / 29

Document Count TLDs Web domains Web domain size distribution cz 91 % webnode.cz 660,000 1 doc 350,000 com 2.3 % idnes.cz 540,000 5 docs 190,000 eu 1.9 % blogspot.cz 450,000 10 docs 130,000 org 1.8 % wikipedia.org 390,000 50 docs 53,000 net 1.2 % lidovky.cz 180,000 100 docs 34,000 info 1.0 % zive.cz 170,000 500 docs 9,100 tyden.cz 150,000 1,000 docs 4,900 estranky.cz 130,000 5,000 docs 950 e15.cz 120,000 10,000 docs 460 denik.cz 120,000 50,000 docs 38 tiscali.cz 120,000 100,000 docs 13 sluzby.cz 110,000 500,000 docs 2 rozhlas.cz 110,000 mobilmania.cz 100,000 penize.cz 98,000 ihned.cz 97,000 Vít Suchomel cstenten17 Raslan 2018 17 / 29

1 Introduction 2 Corpus Construction And Properties 3 Comparison With Other Recent Corpora 4 Conclusion & Future Work Vít Suchomel cstenten17 Raslan 2018 18 / 29

Token Counts, Type-Token Ratio Corpus Token count Word lexicon TTR cstenten17 12,600,000,000 40,400,000 0.003,2 cztenten12 5,070,000,000 18,700,000 0.003,7 Araneum Bohemicum 1,200,000,000 8,460,000 0.007,1 csskell 1,730,000,000 8,010,000 0.004,6 Vít Suchomel cstenten17 Raslan 2018 19 / 29

Average Lengths, The Score Corpus Avg. tok/doc Avg. tok/s The-score cstenten17 350 17 7,387 cztenten12 550 18 730 Araneum Bohemicum 460 17 517 csskell N/A 19 475 SYN 2015 1,055 15 1,145 The-score = the rank of word the in a list of lowercased words. The comparison is based on just a single word and is a bit unfair since word the is a part of the frequency wordlist used to filter cstenten17. Vít Suchomel cstenten17 Raslan 2018 20 / 29

Keyword Comparison of 2017 Subcorpus To Other Coprora cstenten12 Araneum Bohem. csskell R Word Score Word Score Word Score 1 pujcka 16.9 odst 56.8 č 49.4 2 babiš 14.2 písm 21.3 půjčka 15.4 4 půjčka 9.6 vč 12.3 prodám 13.8 5 trump 9.2 hellip 8.2 pujcka 13.6 6 babiše 8.7 tis 8.2 pujcky 10.9 7 eet 8.2 zák 7.7 nbsp 8.1 9 trumpa 6.3 mld 6.9 naruto 7.7 10 azure 6.2 hl 6.4 kdyz 7.6 14 sýrii 4.6 atp 4.8 severus 6.7 15 dodavatelský 4.4 ú 4.5 panička 6.5 17 nebankovní 4.3 azure 4.3 nebankovní 6.3 18 půjčky 4.1 dodavatelský 4.1 kontaktujte 6.2 19 krymu 4.1 protoe 4.0 koupelna 6.0 20 směnnost 4.1 oponent 4.0 pleť 5.8 21 instagram 4.1 xvi 3.9 půjčky 5.7 Vít Suchomel cstenten17 Raslan 2018 21 / 29

Keyword Comparison of 2017 Subcorpus To SYN 2015 SYN 2015 Rank Word Score 3 půjčka 27.1 7 prodám 17.3 8 nabízíme 16.5 11 nebankovní 15.4 13 klikněte 14.4 16 kontaktujte 13.0 20 skladem 11.6 21 naruto 11.6 23 půjčky 10.8 26 email 9.7 27 ikdyž 9.6 28 neváhejte 9.4 29 zadavatel 9.4 30 php 9.3 31 html 9.2 Vít Suchomel cstenten17 Raslan 2018 22 / 29

Keyword Comparison of 2016 To 2017 Subcorpora cstenten17 Rank Word Score 1 kasino 1479 2 sloty 1299 3 casino 969 4 automaty 708 5 kasina 649 6 kasinu 471 7 kasinové 463 8 hazardní 443 9 sajid 432 10 blackjack 422 11 jackpoty 408 12 jackpot 400 13 roztočení 385 14 lisu 309 Vít Suchomel cstenten17 Raslan 2018 23 / 29

Word Sketches To Grasp A Straw in cstenten12 Vít Suchomel cstenten17 Raslan 2018 24 / 29

Word Sketches To Grasp A Straw in cstenten17 Vít Suchomel cstenten17 Raslan 2018 25 / 29

Thesaurus Antedeluvian in csskell 2.2 Vít Suchomel cstenten17 Raslan 2018 26 / 29

Thesaurus Antedeluvian in cstenten17 Vít Suchomel cstenten17 Raslan 2018 27 / 29

1 Introduction 2 Corpus Construction And Properties 3 Comparison With Other Recent Corpora 4 Conclusion & Future Work Vít Suchomel cstenten17 Raslan 2018 28 / 29

Conclusion & Future Work Achievement: A new ten-billion-word Czech web corpus Future Work: Correct the tokenisation of abbreviations Correct the lemmatisation of foreign words Address the part of the corpus from 2016 containing online gambling advertisement spam Identify topics and genres of documents Thank you for your attention! Photo credit: Kathleen & Ryan Rush Vít Suchomel cstenten17 Raslan 2018 29 / 29