Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Podobné dokumenty
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Využití korpusů pro lingvistická bádání Tony McEnery & Andrew Wilson: Corpus Linguistics, Korpusy zdroje empirických dat Korpusy a výzkum řeči

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Specializované korpusy mluveného jazyka - jejich tvorba a využití

Karel Pala, Vít Suchomel

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností

Common Language Resources and Their Applications

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Topospolitické korektnosti v současném českém mediálním diskurzu

Studium anglického jazyka v Dánsku Univerzita Roskilde (studijní stáž)

JAZYKOVÝ KORPUS: Prostředek a zdroj poznání v lingvistice. 1. Pojem jazykového korpusu

vydáno 1. června 2015 Součásti SZZK podle výběru studenta se koná na jednom, nebo na druhém oboru

NLP & strojové učení

Publikační činnost. Václav Cvrček

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

1. Přehled cizojazyčných a vícejazyčných korpusů

Jazyky a počítač: překážky a možnosti. Eva Hajičová MFF UK Praha

Strukturovaný životopis

Výprodej - ZK Sklep - duben 2014 Angličtina - cvičebnice gramatiky (zahr. nakl.) 2 64,00 Kč 2 64,00 Kč 2 64,00 Kč 2 64,00 Kč 2 89,60 Kč 2 89,60 Kč

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

Online přístupné knihy neztrácejí na půvabu

Anglická terminologie v oblasti ICT a moderní edukace

Valenční rámce substantiv v češtině na základě korpusových dat

Minimální počet kreditů 30 kr.

2. Korpusový portál a volně dostupné nástroje

Vybrané aktuální projekty Centra ZPJ. Kolokace a dokumenty. Metody. Kontext:,,One-click dictionary post-editing lexicography

Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová

OLOMOUCKÉ LINGVISTICKÉ KOLOKVIUM (OLINCO) ZPRÁVA O OLINCO

DIACRAN: a framework for diachronic analysis

Doprovodný finálový program pro učitele:

Práce s lexikálním materiálem a možnosti exemplifikace v lexikální databázi LEXIKON 21 1

PV030 Textual Information Systems

Právní datasety. co, proč, kdo a komu. Jakub HARAŠTA. Ústav práva a technologií, Právnická fakulta MU

Specializovaný korpus BANÁT a jeho využití

Minitab vznik a historie

K Z A B C D E F Obsah: Organizace předmětu IB030. Situace na FI MU

Obsah: Organizace předmětu IB030. Situace na FI MU A B C D E F 0 49 K Z

Výsledky dosažené v roce 2007

VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE

Obsah: Organizace předmětu IB030. Situace na FI MU

Kolísání rodu substantiv

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

JAN FIRBAS'S PUBLICATIONS

Jak lze v korpusech hledat doklady pro výzkum morfologie?


Word Sense Disambiguation (1)

K možnostem počítačového zpracování literárního textu

Výberový slovník termínov z počítačovej a korpusovej lingvistiky

Typ SP. Forma studia. Doba Název studujního oboru STUD. Platnost akreditace. Název studijního programu

Slovníky a morfologická analýza

Kde hledat odborné články?

Rozšíření možností vědeckého zkoumání: PŘIDÁNÍ KNIH DO WEB OF SCIENCE SM

Wikizdroje Wikisource

ve strojovém překladu

Faktorované překladové modely. Základní informace

P 7311 Anglistika-amerikanistika ANGLICKÝ JAZYK

Zábavná forma výuky angličtiny. Delivering quality early childhood learning programs for over ten years

Rozumíme knihovnám, vyznáme se v knihách

Hodnocení projektových návrhů vnitřní soutěže FF UK o rozvojové prostředky na rok 2015


SOUBORNÁ ZKOUŠKA pro obor MK - Marketingová komunikace ( ) Písemný test

obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

Validita korpusu ORAL2013. Mgr. Jan Chromý, Ph.D.

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

Berry, Margaret (1995) Thematic options and success in writing in Mohsen Ghadessy (Ed.): Thematic development in English texts, London and New York :

Knihy s možností e-prezenčka a Copy on Demand

Online informační zdroje na FHS UTB ve Zlíně

kupní cena: ,- Kč Splatnost jednorázově, do 30 dnů ode dne podpisu kupní smlouvy na účet prodávajícího. Návrh č. 2.

Filozofická fakulta Ostravské univerzity v Ostravě. Informace o přijímacích zkouškách podle studijních programů

Thema 4. Building Management Grammar: Expressing the future

REFERENCES. Works analysed

Problematika disertační práce a současný stav řešení

Výukový plán. Tematický okruh č. 1 - odborné jazykové vzdělávání pracovníků chemického průmyslu - odborná terminologie - chemie

Profesní životopis PhDr. Matúš Šucha, PhD.

Kde hledat odborné zahraniční články?

Mezinárodní konference lektorů znakového jazyka Praha

Jen popis s čísly? Perspektivy korpusové lingvistiky

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

Charakteristika vyučovacího předmětu Anglický jazyk ŠVP LMP

Představujeme hybridní studijní obor: Český jazyk se specializací počítačová lingvistika. Rozhovor s Danou Hlaváčkovou

Charakteristika studijního předmětu

E-knihy od renomovaných vydavatelů odkudkoliv online i pohodlně na čtečky

INŽENÝRSKÁ PEDAGOGIKA A IGIP ENGINEERING PEDAGOGY AND IGIP. Jiří Měřička

Právní informatika a lingvistika

Lexikální kolokace: základní přehled o vývoji pojetí

Competitive Intelligence v medicínském a farmaceutickém prostředí

Název předmětu: Praktický jazyk 1A. Mgr. Markéta Bilanová, Ph.D. Anotace:

Popisy jazykových kompetencí v odborném a akademickém cizím jazyce kritéria pro jejich posuzování

Transkript:

Korpusová lingvistika a počítačová Od 60. let 20. st.

Raná korpusová lingvistika (konec 19. st 50. léta 20. st., Early corpus linguistics) strukturalistická tradice, americký deskriptivismus, metody založené na zkoumání souborů textů a na empirii shromažďování jazykového materiálu, rozsah je důležitým parametrem nemluvíme o korpusech ani o korpusové lingvistice archiv, kartotéka, deníky, seznamy, slovníky žánrová vyváženost souboru textů zkoumání významů slov a homonymie problematika slovní jednotky a lemmatizace morfologické, syntaktické i sémantické analýzy jazyka na základě textového materiálu

Raná korpusová lingvistika počátky moderní excerpční lístky (ručně, na stroji), výpisky z beletrie, novin, zapojení slova v kontextu (konkordance) zápisy dětské mluvy rodičovské deníky, akvizice jazyka (1876 1926), od 1927 analýzy jazyka, později malý vzorek dětí a dlouhodobé sledování, W. T. Preyer zakladatel dětské psychologie frekvenční studie Käding (11 mil. slov), na dlouhou dobu nejrozsáhlejší jazykový materiál výuka jazyka pro cizince frekvenční seznamy slov, frekvenční slovníky, např. E. Thorndike The Teacher s Word Book, 1921

Raná korpusová lingvistika Kritika komparativní lingvistika srovnávání významů slov z různých jazyků zapisování indiánských jazyků Franz Boas, 1940, zakladatel moderní americké antropologie, studie indiánských kmenů kolem 1950 Noam Chomsky generativní lingvistika, odpor ke korpusovému přístupu k jazyku, korpusy nejsou v lingvistice potřebné, poskytují pokřivená data předpočítačové období ruční hledání v rozsáhlých datech je příliš pracné X rozvoj počítačové techniky

Henry Kučera, W. Nelson Francis Brown Corpus, 1960 1964, Brown University 500 textových vzorků (vždy 2000 slov), 15 žánrových kategorií, 1 mil. slov Computational Analysis of Present-Day American English, 1967 (lingvistika, psychologie, statistika, sociologie) později v 70. letech označkován (PoS tagging) vzor pro další korpusy dostupný přes Sketch Engine American Heritage Dictionary of the English Language, 1969 1. slovník založený na korpusu (Brown Corpus, třířádkové citace, preskripce i deskripce), Boston

Geoffrey Leech (1936 2014), Stig Johansson Lancaster-Oslo/Bergen Corpus (LOB), 1970 1978 britský protějšek k Brown Corpus, stejná struktura (1 mil slov, 500 textových vzorků po 2000 slovech, 15 žánrů) psaná britská angličtina z r. 1961 University of Lancaster, University of Oslo, Norwegian Computing Centre for the Humanities, Bergen originální verze 1976 značkovaná verze (PoS tagging) 1986

Randolph Quirk (1920) korpus The Survey of English Usage (SEU), 1959 University College London, první korpusové pracoviště v týmu také Jan Firbas (český jazykovědec, anglista) vzorky psané a mluvené britské angličtiny (půl na půl), z let 1955 až 1985 200 textů, každý 5000 slov, mluvené monology i dialogy (shromažďováno 30 let) původně na papíře (lístky 6 x 4 palce), později převeden do počítačově čitelné podoby (Svartvik) R. Quirk Towards a description of English Usage, 1960, publikace o SEU

SEU byl použit pro jednu z nejdůležitějších korpusově založených gramatik Comprehensive Grammar of the English Language (Quirk, Greenbaum, Leech, Svartvik, 1985) Jan Svartvik (1931), Sidney Greenbaum The London- Lund Corpus of Spoken English, Lund University, Sweden (100 přepisů, 500 tis. slov, zveřejněn až 1980) 1. počítačový korpus mluveného jazyka SEU 13 textů mluvené angličtiny Survey of Spoken English (SSE), Jan Svartvik, Lund University, 1975 jako sesterský projekt London Survey 87 textů mluvené angličtiny

COBUILD Collins Birmingham University International Language Database, britské výzkumné centrum na University of Birmingham, od r. 1980 založeno vydavatelstvím Collins, na počátku vedl profesor John Sinclair (1933 2007) Birmingham Collection of English Text (Collins Corpus), 1980, jako první využil OCR Collins COBUILD English Language Dictionary, 1987, Sinclaire (pro výuku angličtiny jako cizího jazyka), první slovník založený na současné, běžně užívané angličtině Corpus, Concordance, Collocation, (Oxford University Press, 1991)

Deutsches Referenzkorpus (DeReKo), 1964, Mannheim Korpus, Institut für Deutsche Sprache LIMAS (Linguistik und Maschinelle Sprachbearbeitung), 1970, Universität Bonn německá varianta Brown Corpus 500 textů, 15 kategorií, 1 mil. slov, texty z let 1969 70