Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Podobné dokumenty
Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Využití korpusů pro lingvistická bádání Tony McEnery & Andrew Wilson: Corpus Linguistics, Korpusy zdroje empirických dat Korpusy a výzkum řeči

Karel Pala, Vít Suchomel

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Specializované korpusy mluveného jazyka - jejich tvorba a využití

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

ZPRÁVA Z JAZYKOVÉHO KURZU TECHNICKÉ ANGLIČTINY

Common Language Resources and Their Applications

Publikační činnost. Václav Cvrček

Jazyky a počítač: překážky a možnosti. Eva Hajičová MFF UK Praha

Filozofická fakulta Ostravské univerzity v Ostravě. Informace o přijímacích zkouškách podle studijních programů

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

1. Přehled cizojazyčných a vícejazyčných korpusů

Práce s lexikálním materiálem a možnosti exemplifikace v lexikální databázi LEXIKON 21 1

Validita korpusu ORAL2013. Mgr. Jan Chromý, Ph.D.

Topospolitické korektnosti v současném českém mediálním diskurzu

PV030 Textual Information Systems

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Doprovodný finálový program pro učitele:

Valenční rámce substantiv v češtině na základě korpusových dat

Matematická lingvistika

Specializovaný korpus BANÁT a jeho využití

K Z A B C D E F Obsah: Organizace předmětu IB030. Situace na FI MU

Obsah: Organizace předmětu IB030. Situace na FI MU A B C D E F 0 49 K Z

JAZYKOVÝ KORPUS: Prostředek a zdroj poznání v lingvistice. 1. Pojem jazykového korpusu

Hodnocení projektových návrhů vnitřní soutěže FF UK o rozvojové prostředky na rok 2015

Čeština doma & ve světě. [nová]

Studium anglického jazyka v Dánsku Univerzita Roskilde (studijní stáž)

Jak lze v korpusech hledat doklady pro výzkum morfologie?

vydáno 1. června 2015 Součásti SZZK podle výběru studenta se koná na jednom, nebo na druhém oboru

Strukturovaný životopis

NĚMECKÝ JAZYK A LITERATURA (jednooborové bakalářské studium) B 7310 Filologie

VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE

Právní datasety. co, proč, kdo a komu. Jakub HARAŠTA. Ústav práva a technologií, Právnická fakulta MU

K možnostem počítačového zpracování literárního textu

Čeština doma & ve světě. [nová]

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová

OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie

Anglická terminologie v oblasti ICT a moderní edukace

Výprodej - ZK Sklep - duben 2014 Angličtina - cvičebnice gramatiky (zahr. nakl.) 2 64,00 Kč 2 64,00 Kč 2 64,00 Kč 2 64,00 Kč 2 89,60 Kč 2 89,60 Kč

ve strojovém překladu

NĚMECKÝ JAZYK A LITERATURA (jednooborové navazující magisterské studium) N 7310 Filologie

Charakteristika vyučovacího předmětu Anglický jazyk ŠVP LMP

MORFOLOGICKÉ ZNAČKOVÁNI SLOŽENÝCH SLOVESNÝCH TVARŮ V KORPUSU

ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost ET

Info schůzka. 16-Jan-16 Open Day - Dept. of English 1

Rozumíme knihovnám, vyznáme se v knihách

Minitab vznik a historie

OLOMOUCKÉ LINGVISTICKÉ KOLOKVIUM (OLINCO) ZPRÁVA O OLINCO

SOUBORNÁ ZKOUŠKA pro obor MK - Marketingová komunikace ( ) Písemný test

reg. č. CZ.1.07/1.1.16/

NLP & strojové učení

2. Korpusový portál a volně dostupné nástroje

Info schůzka. 2-Nov-18 Open Day - Dept. of English 1

Čím může bohemistice přispět současná počítačová lingvistika?

UŽITEČNÉ ODKAZY. ROZŘAZOVACÍ TESTY. -Slovní zásoba-nižší úroveň

Kromě jazyka stínovala i výuku dějepisu, zeměpisu a estetické výchovy.

Rozšíření možností vědeckého zkoumání: PŘIDÁNÍ KNIH DO WEB OF SCIENCE SM

Mezinárodní konference lektorů znakového jazyka Praha

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

Profesní životopis PhDr. Matúš Šucha, PhD.

Všeobecná angličtina

obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy


Kde hledat odborné články?

Publikace. Kateřina Legnerová, Marie Dohnalová. Marie Dohnalová, Lenka Deverová, Kateřina Legnerová, Marie Dohnalová Tereza Pospíšilová

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

Rekonstrukce standardizovaného textu z mluvené řeči

Ústav jižní a centrální Asie obor indologie

Berry, Margaret (1995) Thematic options and success in writing in Mohsen Ghadessy (Ed.): Thematic development in English texts, London and New York :

Juxtapozice z do v Arabštině

K úkolům výzkumného záměru Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století 1

ONLINE PŘÍPRAVNÝ KURZ KE ZKOUŠCE TOEFL IBT (Internet Based

Kolísání rodu substantiv

Na počátku tvorby nového všeobecného výkladového slovníku současné češtiny. Pavla Kochová, Zdeňka Opavská

Koncepce rozvoje Ústavu Českého národního korpusu v období Václav Cvrček, Ph.D.

Komunikace a jazyková správnost (pravopis)? Předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2015

Vybrané aktuální projekty Centra ZPJ. Kolokace a dokumenty. Metody. Kontext:,,One-click dictionary post-editing lexicography

Online přístupné knihy neztrácejí na půvabu

ČEŠTINA PRO CIZINCE ČC / JEDNOOBOROVÉ MAGISTERSKÉ STUDIUM PREZENČNÍ

Obsah: Organizace předmětu IB030. Situace na FI MU

Slovnědruhová a morfologická homonymie, homofonie a homografie v současné češtině 1

DIACRAN: a framework for diachronic analysis


NIZOZEMSKÝ JAZYK A LITERATURA (jednooborové bakalářské studium) B 7310 Filologie

Předmět: Konverzace v ruském jazyce

Transkript:

Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105

Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl generativní lingvistika (50. léta 20. st.) rozvoj počítačové techniky (od. 60. let 20. st.)

Raná korpusová lingvistika konec 19. st 50. léta 20. st. strukturalistická tradice, americký deskriptivismus, metody založené na zkoumání souborů textů a na empirii shromažďování jazykového materiálu, rozsah je důležitým parametrem nemluvíme o korpusech ani o korpusové lingvistice archiv, kartotéka, deníky, seznamy, slovníky žánrová vyváženost souboru textů zkoumání významů slov a homonymie problematika slovní jednotky a lemmatizace morfologické, syntaktické i sémantické analýzy jazyka na základě textového materiálu

Raná korpusová lingvistika počátky moderní lexikografie excerpční lístky (ručně, na stroji), výpisky z beletrie, novin, zapojení slova v kontextu (konkordance) zápisy dětské mluvy rodičovské deníky, akvizice jazyka (1876 1926), od 1927 analýzy jazyka, později malý vzorek dětí a dlouhodobé sledování frekvenční studie Käding (11 mil. slov), na dlouhou dobu nejrozsáhlejší jazykový materiál výuka jazyka pro cizince frekvenční seznamy slov, frekvenční slovníky, např. E. Thorndike The Teacher s Word Book, 1921

Raná korpusová lingvistika komparativní lingvistika srovnávání významů slov z různých jazyků zapisování indiánských jazyků Franz Boas, 1940, zakladatel moderní americké antropologie, studie indiánských kmenů Kritika kolem 1950 Noam Chomsky generativní lingvistika, odpor ke korpusovému přístupu k jazyku, korpusy nejsou v lingvistice potřebné, poskytují pokřivená data předpočítačové období ruční hledání v rozsáhlých datech je příliš pracné X rozvoj počítačové techniky

Korpusová lingvistika a počítačová lexikografie (od 60. let 20. st.) Henry Kučera, W. Nelson Francis Brown Corpus, 1960 1964, Brown University 500 textových vzorků (vždy 2000 slov), 15 žánrových kategorií, 1 mil. slov Computational Analysis of Present-Day American English, 1967 (lingvistika, psychologie, statistika, sociologie) později v 70. letech označkován (PoS tagging) vzor pro další korpusy dostupný na MU přes Sketch Engine American Heritage Dictionary of the English Language, 1969 1. slovník založený na korpusu (Brown Corpus, třířádkové citace, preskripce i deskripce), Boston

Korpusová lingvistika a počítačová lexikografie (od 60. let 20. st.) Geoffrey Leech (1936 2014), Stig Johansson Lancaster-Oslo/Bergen Corpus (LOB), 1970 1978 britský protějšek k Brown Corpus, stejná struktura (1 mil slov, 500 textových vzorků po 2000 slovech, 15 žánrů) psaná britská angličtina z r. 1961 University of Lancaster, University of Oslo, Norwegian Computing Centre for the Humanities, Bergen originální verze 1976 značkovaná verze (PoS tagging) 1986

Korpusová lingvistika a počítačová lexikografie (od 60. let 20. st.) Randolph Quirk (1920) The Survey of English Usage (SEU), 1959, University College London, první korpusové pracoviště v týmu také Jan Firbas (český jazykovědec, anglista) cílem bylo popsat gramatický repertoár dospělých, vzdělaných rodilých mluvčích v Británii SEU vzorky psané a mluvené britské angličtiny (půl na půl), 200 textů, každý 5000 slov, mluvené monology i dialogy původně na papíře (lístky 6 x 4 palce), později převeden do počítačově čitelné podoby (Svartvik) R. Quirk Towards a description of English Usage, 1960, publikace o SEU

Korpusová lingvistika a počítačová lexikografie (od 60. let 20. st.) SEU byl použit pro jednu z nejdůležitějších korpusově založených gramatik Comprehensive Grammar of the English Language (Quirk, Greenbaum, Leech, Svartvik, 1985) Jan Svartvik, Sidney Greenbaum The London-Lund Corpus of Spoken English, Lund University, Sweden (100 přepisů, 500 tis. slov, zveřejněn až 1980) 1. počítačový korpus mluveného jazyka SEU 13 textů mluvené angličtiny Survey of Spoken English (SSE), Jan Svartvik, Lund University, 1975 jako sesterský projekt London Survey 87 textů mluvené angličtiny

Korpusová lingvistika a počítačová lexikografie (od 60. let 20. st.) COBUILD Collins Birmingham University International Language Database, britské výzkumné centrum na University of Birmingham, od r. 1980 založeno vydavatelstvím Collins, na počátku vedl profesor John Sinclair (1933 2007) Birmingham Collection of English Text (Collins Corpus), 1980, jako první využil OCR Collins COBUILD English Language Dictionary, 1987, Sinclaire (pro výuku angličtiny jako cizího jazyka), první slovník založený na současné, běžně užívané angličtině Corpus, Concordance, Collocation, (Oxford University Press, 1991)

Korpusová lingvistika v ČR Marie Těšitelová Korpus věcného stylu (1971 1985), ručně morfologicky a syntakticky značkovaný (Český akademický korpus, ÚFAL MFF UK, 2007) Jaroslav Jelínek, Josef V. Bečka, Marie Těšitelová Frekvence slov, slovních druhů a tvarů v českém jazyce, 1961 1988 Iniciativní skupina pro přípravu počítačových korpusů, textů a slovníků (Pala, Čermák, Schmiedtová, Hajičová ad.) Počítačový fond češtiny, 1992 Skupina pro počítačový fond češtiny Čermák, Králík, Pala, Hajič, Hajičová, Sgall, Schmiedtová, Benko, Kučera 1993 95 Počítačový korpus českých psaných textů (GAČR) 1994 založení Ústavu Českého národního korpusu

Korpusová lingvistika v ČR 1995 cesta do Velké Británie po centrech korpusové lingvistiky Pala, Čermák, Petkevič, Schmiedtová Oxford University Press, University of Oxford Patrick Hanks School od English, Birmingham City University John Sinclaire Lancaster University Geoffrey Leech příprava korpusového manažeru Pavel Rychlý CQP (Universitat Stuttgart, Institut für Maschinelle Sprachverarbeitung, prof. Ulrich Heid, autoři CQP Schulze a Christ) Manatee Bonito Pavel Rychlý dizertační práce