Využití korpusů pro lingvistická bádání Tony McEnery & Andrew Wilson: Corpus Linguistics, Korpusy zdroje empirických dat Korpusy a výzkum řeči

Podobné dokumenty
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Tematika XVI. mezinárodního sjezdu slavistů v Bělehradě v r JAZYK Etymologie a historicko-srovnávací výzkum slovanských jazyků.

NĚMECKÝ JAZYK A LITERATURA (jednooborové navazující magisterské studium) N 7310 Filologie

obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

ZÁKLADNÍ METODOLOGICKÁ PRAVIDLA PŘI ZPRACOVÁNÍ ODBORNÉHO TEXTU. Martina Cirbusová (z prezentace doc. Škopa)

KDYŽ ZAČÍNÁME MLUVIT... Lingvistický pohled na rané projevy česky hovořícího dítěte. Lucie Saicová Římalová

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA

Český jazyk a literatura

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Český jazyk a literatura

Jazyk a společnost: pojmy a teze jaro 2019

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

RVP ŠVP UČIVO - rozlišuje a příklady v textu dokládá nejdůležitější způsoby obohacování slovní zásoby a zásady tvoření českých slov

Jazyk a společnost: pojmy a teze jaro 2017

ČEŠTINA PRO CIZINCE. ČC / JEDNOOBOROVÉ BAKALÁŘSKÉ STUDIUM PREZENČNÍ (tříleté) Povinné předměty

2. Korpusový portál a volně dostupné nástroje

Neubauer, K. a kol. NEUROGENNÍ PORUCHY KOMUNIKACE U DOSPĚLÝCH (Praha, Portál, r. vydání 2007).

Spokojenost se životem

VOLITELNÉ PŘEDMĚTY - 4. ročník. Školní rok: Blok zaměřený na matematiku, fyziku a IVT. - cvičení z matematiky

Srovnávací a historická gramatika, historicko-srovnávací metoda Franz Bopp, Jacob Grimm, Karl Brugmann

Plán hodiny. Výklad. přehledová stať Rozhovor jako kritický žánr? Poznámky k práci s rozhovorem

Teoreticko-metodologický seminář. Zdeňka Jastrzembská

Metodologie pedagogického výzkumu Téma číslo 2 Koncipování vlastního výzkumu

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

ČESKÝ JAZYK A LITERATURA (jednooborové bakalářské studium) B 7310 Filologie (Platnost akreditace: )

OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie

Den otevřených dveří 2007

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.

Téma číslo 4 Základy zkoumání v pedagogice I. Pavel Doulík, Úvod do pedagogiky

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky Autor: Mgr. Martin Fryauf Název materiálu: Kriminalistická

Varianty výzkumu Kroky výzkumu Výběrový soubor

Charakteristika vyučovacího předmětu

VOLITELNÉ PŘEDMĚTY - 4. ročník. Školní rok: Blok zaměřený na matematiku, fyziku a IVT. - cvičení z matematiky

Magisterské studium. OJ410 Magisterská diplomní práce všichni

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Aktuální změny v didaktickém testu z češtiny 2015

Jazykové prostředky jako téma závěrečná práce zaměřené na didaktiku cizího jazyka

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Metodologie práce dětí a mládeže na vědeckých a technických projektech

Protetické v- v pražské mluvě. seminář Příprava a realizace interdisciplinárního výzkumu

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Přehled výzkumných metod

SEMINÁŘ Z ČESKÉHO JAZYKA. Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

Zpráva z evaluačního nástroje. Strategie učení se cizímu jazyku Dotazník pro učitele základní školy

XLIII. zasedání Akademického sněmu Akademie věd České republiky. Praha 12. prosince Bod programu: 3

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

VÝBĚR VZORKU V KVANTITATIVNÍM

VOLITELNÉ PŘEDMĚTY - 4. ročník. Školní rok: Blok zaměřený na matematiku, fyziku a IVT. - cvičení z matematiky. - cvičení z fyziky

Úvod do kvantitativní lingvistiky. Radek Čech

Výzkumný problém. Přednášky ze Základů pedagogické metodologie Kateřina Vlčková, PdF MU Brno

UČEBNÍ OSNOVY. Jazyk a jazyková komunikace Německý jazyk

Jazyk, slovo, slovní zásoba a slovníky. Tomáš Káňa Masarykova univerzita v Brně Katedra německého jazyka a literatury

Fáze a techniky marketingového výzkumu

ve strojovém překladu

Standardy ČJ - 2.stupeň - přehled


ČEŠTINA PRO CIZINCE ČC / JEDNOOBOROVÉ MAGISTERSKÉ STUDIUM PREZENČNÍ

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Předmět: Konverzace v ruském jazyce

Proces marketingového výzkumu - jednotlivé fáze, význam, stručná charakteristika. Výběr a formulace výzkumného problému. Vztahy mezi proměnnými.

ČESKÝ JAZYK. Oddíl E učební osnovy I.1.C

Služby pro studenty se sluchovým postižením uživatele verbálního jazyka

Juxtapozice z do v Arabštině

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Vývoj vědeckého myšlení

Zpráva pro školu z evaluačního nástroje. Strategie učení se cizímu jazyku Dotazník pro žáky a učitele základní školy

NĚMECKÝ JAZYK A LITERATURA (jednooborové bakalářské studium) B 7310 Filologie

Info schůzka. 2-Nov-18 Open Day - Dept. of English 1

PROPOJENÍ VĚDY, VÝZKUMU, VZDĚLÁVÁNÍ A PODNIKOVÉ PRAXE. PhDr. Dana Pokorná, Ph.D. Mgr. Jiřina Sojková, Státní zámek Sychrov,

Slohové útvary se zřetelem ke komunikační situaci

STYL (SLOH) = ZPŮSOB VÝSTAVBY JAZYKOVÉHO PROJEVU (způsob zpracování obsahu a využití jazykových prostředků) Nauka o slohu se nazývá STYLISTIKA

ANGLISTIKA-AMERIKANISTIKA (jednooborové bakalářské studium) B 7311 Anglistika-amerikanistika

Vzdělávací obsah vyučovacího předmětu

CZ.1.07/1.5.00/

Zpráva z evaluačního nástroje Dotazník strategií učení cizímu jazyku

Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová

Marketing Marketingový výzkum

Zpráva z evaluačního nástroje Dotazník strategií učení cizímu jazyku

Charakteristika předmětu Anglický jazyk

Ošetřovatelská péče v komunitní a domácí péči

Seminář k absolventské práci

KATALOGIZACE V KNIZE NÁRODNÍ KNIHOVNA ČR. Průcha, Jan Srovnávací pedagogika / Jan Průcha. Vyd. 1. Praha: Portál, s. ISBN

MOŽNÉ OČEKÁVANÉ VÝSTUPY PRO ROZVOJ ČG

Popis vzdělávacího programu nabízeného v současné době v podobě rozšiřujícího tříletého (6 semestrů) studia; akreditovaný program MŠMT

Očekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)

Standard pro písemné práce k bakalářské zkoušce

Marketingové aplikace. Doc. Ing.Vladimír Chalupský, CSc., MBA

Překladač a jeho struktura

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Člověk a společnost. 10. Psychologie. Psychologie. Vytvořil: PhDr. Andrea Kousalová. DUM číslo: 10. Psychologie.

Zpráva z evaluačního nástroje Strategie učení se cizímu jazyku

Info schůzka. 16-Jan-16 Open Day - Dept. of English 1

Transkript:

Využití korpusů pro lingvistická bádání (volný překlad dle : Tony McEnery & Andrew Wilson: Corpus Linguistics, Edinburgh Teextbooks in Empirical Linguistics 1996, 1997) Korpusy zdroje empirických dat V dnešní přednášce se budeme věnovat roli, kterou korpusy mohou sehrát a sehrávají ve zkoumání jazyka a při tzv. NLP, tedy snahách o tvorbu počítačového modelování jazyka. Podívejme se tedy nejprve na studium jazyka jako takového. Jak jsme si již řekli, spočívá význam korpusů především v tom, že jsou zdrojem empirických (autorem neovlivněných, nezávislých) dat. Umožňují tak jazykovědci vyslovovat závěry, které jsou objektivně podloženy a neopírají se jen o subjektivní pozorování introspekci jedince. Použití empirických dat pro studium jazyka rovněž otevírá možnost studovat jazykové variety jako např. dialekty nebo starší stádia jazyka, které racionalistickým přístupem uchopitelné nejsou. Je patrné, že empirický výzkum je možný i bez korpusu. Celá řada lingvistů označují jako korpus data, která přísně vzato korpusem nejsou, protože neodpovídají všem požadavkům definice korpusu v úzkém terminologickém slova smyslu (neobsahují přesně definované vzorky, variety, atd.) Správně by měli říkat, že se opírají o sbírky textů (collections of texts). Můžeme tedy shrnout, že korpusová lingvistika nutně zahrnuje empirický přístup, ale empirický přístup nutně nepotřebuje korpus, tudíž ne každý, kdo přistupuje k jazyku empiricky je eo ipso korpusový lingvista. V tom, co bude následovat, se podíváme na to, jakou roli mohou korpusy hrát v různých odvětvích lingvistického výzkumu. Zaměříme se na to, přoč jsou korpusová data důležitá právě v některých oblastech a jak může korpusově orientovaný výzkum přispět k rozvoji lingvistického bádání. Vy sami byste se měli zamyslet nad dalšími příklady, které vás napadnou (závěrečný návrh). Korpusy a výzkum řeči Zde existují dvě významné oblasti. Za prvé už samo budování korpusu mluvené řeči znamená shromáždění širokého výběru variant mluveného jazyka podle mluvčích lišících se věkem, původem, pohlavím, vzděláním. Vzorky pak jdou napříč různými žánry (konverzace na různá témata, beseda, přednáška, přednes, kázání atd.). Tato šíře záběru má dva klady. Šíře korpusu umožňuje snadnější generalizaci učiněných pozorování než omezený vzorek (reprezentativnost umožňuje generalizaci). Pokud můžeme vybírat z korpusu podle klíče, jímž je některý vzorek, můžeme zkoumat menší subkorpusy (jak mluví ženy, mládež, jak vypadají kázání) a studovat variety jazyka jednotlivě. Druhou výhodou korpusu mluveného jazyka je, že zahrnuje vzorky přirozené řeči tak jak se mluví ve skutečnosti. Zde záleží především na tom, aby respondent, informátor mluvil přirozeně a nepřizpůsoboval, nemodifikoval svůj projev. Vzhledem k tomu, že korpus mluveného jazyka (KMJ) zahrnuje většinou prosodické anotace,můžeme jej zpracovávat pomocí kvantitativních metod. Je možné postupovat dvěma způsoby. Za prvé je možné testovat na datech různé hypotézy, za druhé můžeme na základě pozorování dat hypotézu vytvořit, a pak ji na datech ověřit. V obl. českých mluvených korpusů málo až nic. Korpusy a studium lexika Lexikografové používaly empirická data dlouho před tím, než KL vznikla. Sběr dat pro slovníkové práce byl založen na sběru lístkových katalogů sestavovaných z příkladů lexikálních jednotek a jejich užití nalezených v různých zdrojích empirických dat (literárních aj. textech). Tak např. vznikl Oxford English Dictionary Samuela Johnsona v 19. stol. nebo PSJČ. Praxe opírající se o sběr citací stále v lexikografii pokračuje. Korpusy nicméně přispěly a přispívají

k rozvoji lexikografie velmi významným způsobem, neboť umožňují nejen lexikografům, ale všem lingvistům nový pohled na slovník. Korpusy i libovolné sbírky textů umožňují vyhledání zadané lexikální jednotky v nejrůznějších případech jejího použití z velkých milionových korpusů během několika vteřin. Použití korpusů umožňuje rychlé rozšiřování a obohacování slovníku. Definice a výklad mohou být co nejbohatší až kompletní, velmi precizní. Příklady a doklady se díky počítačovému zpracování moho rychle řadit do smysluplných podskupin (kupř. pravý/levý kontext, abecední řazení atd.). Slovníky mohou obsahovat použití lexikální jednotky v různých jazykových varietách (regionální srov. angličtina britská, americká, australská, ), autor, žánr. Při sestavování slovníků se nejčastěji používá tzv. otevřených monitorovacích korpusů, jak jsem se o nich zmínila ve druhé přednášce. V lexikografii hrají roli logicky proto, že se do nich s přílivem nových dat dostávají jednak nově vznikající lexikální jednotky, jednak nová užití existujících lexikálních jednotek. Tyto korpusy se vzhledem k neustálé proměně nehodí pro kvantitativní analýzy. Ohromný význam mají korpusy (specializované) pro sestavování terminologických slovníků, kde právě souvýskyt a možnost jeho srovnání umožňují přesně definovat obsah termínu. Tak jako význam slova je možné z korpusu vyčíst i údaje o jeho gramatických vlastnostech, zejména morfologii. Rychle a pružně můžeme zkoumat existenci, frekvenci a především rozvržení morfologických variant a produktivitu morfémů. Korpusy a gramatika Gramatika a syntax se často opírala o výzkum založený na datech korpusového typu. Korpusy jsou pro výzkum gramatiky důležité jednak proto, že přinášejí data, která je možné posuzovat z kvantitativního hlediska, jednak proto, že umožňují testování různých hypotéz a gramatických teorií. V poslední čtvrtině dvacátého století se korpusově orientovaný výzkum gramatiky zaměřil především na kvantitativní analýzu, která pomohla jít za subjektivní tvrzení a odhalila skutečné rozdíly mezi obecným a zvláštním, frekventovaným a řídkým. V roce 1985 vydal Quirk a kol. gramatika Comprehensive Grammar of English Language založenou na korpusech. Na korpusech lze frekvenční analýzou testovat celou řadu jevů popisovaných v klasických gramatikách a ověřit si minimálně jejich výskyt v korpusu, jejich frekvenci a při dalším zpracování význam (interpretaci) různých výskytů. V minulých přednáškách jsme se několikrát zmínili o tom, že korpusový přístup stojí v opozici k tzv. racionalistickému přístupu. V oblasti zkoumání gramatiky se objevuje kombinace obou hledisek. Introspekcí získaná fakta se ověřují na materiálu korpusu a sleduje se tak obsah a rozsah jejich platnosti. Korpusy a sémantika Zmínili jsme se o tom, že v korpusu můžeme vyhledat jednotlivé výskyty slov, které nás zajímají a podívat se na ně, co v různých kontextech znamenají (lexikální sémantika lexikografie). Korpusy mohou mít a mají svůj význam i pro obecnou sémantiku, protože umožňují výzkum významu založený na objektivním přístupu k jazyku. Mindt (1991) ukázal, jak vytvořit objektivní kritéria pro odhalení významu lingvistických jednotek. Poukázal na to, že stanovení významu jazykové jednotky se většinou opírá o racionalistické přístupy (jak tomu rozumím). Na základě kvantitativních analýz různých významů lze ovšem ukázat objektivní význam různých jednotek opřený o empirickou evidenci. Sám zkoumal různé způsoby vyjadřování budoucnosti v angličtině. Druhým příspěvkem KL v sémantice je možnost přesněji vymezit zhruba určené gramatické kategorie, přesně vymezit, která jednotka do kategorie patří a která nikoliv. Některé kategorie jsou uzavřené a mají pevně stanovené a stanovitelné hranice, jiné jsou otevřené a jejich hranice

se jen těžko vymezují. Korpusy mohou přispět tím, že místo toho, abychom se snažili postihnout hranici mezi kategoriemi v termínech patří do nepatří do (inkluze exkluze), postihneme rozdíl v termínech kvantitativních většinou někdy málokdy,, přičemž se můžeme opřít o výčet příkladů, které mohou sloužit jako vzory pro další neuvedené příklady, které se posléze vyskytnou. Korpusy pragmatika a analýza diskurzu V této oblasti je využití korpusů dosud poměrně málo zastoupeno. Pragmatika se definuje jako význam v kontextu. Vzhledem k tomu, že korpusy jsou sestavovány s menších vzorků, mohou být pro pragmatická bádání omezené. Nicméně např. v PFG (Sgall, Hajičová MFF UK) zaměřuje se na zkoumání diskurzu a pracuje s korpusy. Korpusy a sociolingvistika Sociolingvistika sdílí s historickou jazykovědou, dialektologií a stylistikou to, že se odevždy opírá primárně o data, která můžeme v širším (ne úzce terminologickém) smyslu pokládat za korpusy (korpusová data). Vzhledem k tomu, že tato data nebyla sbírána primárně pro účely kvantitativního výzkumu, nebylo jejich sestavování podrobeno tak přísným požadavkům, které jsou kladeny na moderní korpus v úzkém slova smyslu (vzorky / reprezentativnost). Většina sociolingvistických projektů a studií využívajících korpusy se zabývá zkoumáním lexika z hlediska tzv. genderové lingvistiky (vliv pohlaví autora textu na výběr lexikálních a jazykových jednotek). Problém, na nějž se naráží a který by bylo možno odstranit, je nedostatečné zpřístupnění sociolingvistických informací v notacích korpusu a nedostatek sociolingvistického přístupu při sestavování vzorků. Sociolingvisticky anotované korpusy přinesou zajisté průlom v této abl. využití KL. Korpusy a stylistika Typické stylistické výzkumy se mnohem spíše orientují na výzkum jazyka jednotlivce (díla), než na zkoumání širokých variet jazyka. Stylistika se tedy spíše než o korpusy v pravém slova smyslu opírá o počítačově čitelné texty, které ovšem může analyzovat metodami používanými primárně KL. Některé stylisty ovšem zajímá výzkum stylu určitého žánru, a pak přijdou ke slovu právě korpusy. (často žurnalistický styl). Stylistika předpokládá, že autor vybírá z jazykových prostředků. Definice způsobu autorského výběru pak zakládá definici autorského stylu, tj. stupně v němž je výběr prostředků individuálním rysem. To lze zjišťovat kvantitativními metodami, které umožní objektivní srovnání. Korpus je pak srovnávací bází. Druhou oblastí, v níž se ve stylistice uplatní korpusy, je srovnání psaného a mluveného jazyka. Zde se nabízí dvě oblasti. Zajímavé je např. srovnat, jak se mluvený jazyk prezentuje v psaných textech přímá řeč. Korpusy představují výzvu pro zkoumání jazykové typologie (výzkum žánrů). Vzhledem k tomu, že korpusy zahrnují vzorky variet jazyka vybraných podle kritéria žánru, umožňují expost ověřit charakter typičnosti jazykových jevů pro příslušný žánr. Korpusy a výuka jazyka a jazykovědy Jazyková výuka odráží velmi dobře empirické a racionalistické přístupy jazykovědné teorie, o niž se opírají učební texty a metody. Mnohé učebnice jsou založeny na racionalistickém přístupu a obsahují texty, slovní zásobu, gramatické výklady, opřené o intuice autora. Jiné např.

projekt Collins- COBUILD se snaží opřít o korpusy a založit výklady a příklady na skutečném jazykovém materiálu. Korpusy mohou navíc studentům studujícím cizí jazyky pomáhat přímo, jako zdroje, v nichž si mohou přímo hledat a ověřovat fakta, která vzhledem k nedokonalým znalostem jazyka, jenž se učí dobře neznají (lexikum, souvýskyt, obvyklost v rámci žánru atd.). Korpusy se pro mnohé vědce stávají přímým učebním materiálem. Pomáhají autorům učebnic při výběru slovní zásoby (frekvence), výkladu významu (kolokace), výkladu gramatiky atd. Důležité je rovněž využití speciálních korpusů při sestavování učebních materiálů např. pro studenty nelingvisty (mediky, techniky), kteří potřebují zvládnout především jistou oblast jazyka (terminologii, odbornou frazeologii, pasivní zvládání jazyka čtení odborných textů atd.). Korpusy se používají nejen pro výuku jazyka, ale i pro výuku lingvistiky. Jednou z oblastí využití korpusů je tzv. computer-assisted language learning. Na základě korpusů se vytvářejí různé softwarové nástroje sloužící k jazykové výuce. Rozšíření vícejazyčných korpusů bude nadále sloužit pro výuku překladatelství a tlumočnictví (výzkum na univerzitě v Bologni prof. Zanettin článek v monografii Korpusová lingvistika). Korpusy v diachronní lingvistice Výzkum historických stádií jazyka je založen výhradně na korpusovém přístupu. Mrtvé jazyky a starší stádia vývoje živých jazyků jsou nám přístupny ve formě psaných památek, jejichž inventář je v podstatě omezen a vymezen. Jsou tedy z jistého hlediska reprezentativními korpusy. Je samozřejmě možné, že se někde objeví dosud neobjevený rukopis nebo neznámý nápis, nicméně celá řada problémů spojených se sestavováním synchronních korpusů se v diachronii neobjeví. Otázka reprezentativního korpusu je poněkud jiná. V případě vzorků se používají podobné metody jako při výběru vzorků pro mluvený nebo dialektologický korpus. Roli hrají kritéria jako je doba vzniku a oblast původu vzorku. I u diachronních korpusů platí, že rozsah zvyšuje význam korpusu, nicméně výsledky kvantitativních analýz se musí přijímat s větší opatrností, než u korpusů synchronních, protože máme k dispozici jen to, co se dochovalo, což nemusí být reprezentativní v tom smyslu, jako to, co si vybereme podle přísných kriterií pro korpus dnešního jazyka. Helsinský korpus DIAKORP Korpusy v dialektologii Dialektologické korpusy umožňují srovnání variet jazyka v jeho geografických varietách. Důležitá je především šíře vzorků po stránce obsahu a rozsahu a míra kompatibility vzorků z různých oblastí. Velký význam má při výzkumu angličtiny existence korpusů britských, amerických, australské a novozélandské angličtiny, popř. korpusy anglických textů z oblastí bývalých kolonií. V oblasti češtiny se uvažuje a projektuje převedení rozsáhlého materiálu dialektologických archívů do počítačově čitelné podoby. O dialektologii lze říci, že jako jazykovědná disciplina pracuje s empirickými daty a že zpracování se zaměřuje na lexikum (primárně), gramatiku (morfologii), ale i např. syntax (M. Šipková syntax hanáckých nářečí). Korpusy a psycholingvistika V centru zájmu psycholingvistiky stojí řešení otázek, kterak se produkuje jazyk v mysli. Zaměřuje se na měření takových hodnot, jako např. jak dlouho trvá nalezení hranic syntaktických jednotek při čtení, jak se pohybují oči a jak pracuje mozek.

Korpusy v psycholingvistice mohou přispět jako zdroje dat pro laboratorní experimenty. Frekvenční seznamy mohou pomoci k tomu, aby se psycholingvisté neblamovali např. zkoumají-li rychlost rozpoznání slov (u frekventovaných se vyšší rychlost dá předpokládat). Svou roli mohou korpusy sehrát např. při zkoumání výskytu jazykových chyb v běžně mluveném jazyce (kdy je chyba věcí individuální a kdy obecnou, co z toho plyne pro její tolerovanost a tolerovatelnost atd.). Také při výzkumu patologie jazyka hrají korpusy svou roli. Teprve poté, co jsou sestaveny korpusy jazyka tvořeného texty mluvčích s abnormalitami, můžeme postavit hypotézy o tom, jak u nich jazykové tvoření vlastně funguje. Korpusy a kulturní studia V lingvistice se dnes obecně má za to, že sociální podmínky ovlivňují charakter jazykových projevů. Vliv sociálních faktorů na volbu jazykových prostředků je oblast, kde se lingvistika stýká s oborem zvaným kulturní studia. Zmiňuji studii srovnávající americkou a anglickou angličtinu, která na základě analýzy frekvence slovní zásoby došla k závěru, že Amerika je společnost maskulinní, militaristická, má větší vztah k mobilitě, kdežto britská společnost je femininní, mírná, stabilní. Korpusy a sociální psychologie Lingvisté nejsou jedinými uživateli korpusů. Korpus může představovat zdroj poznatků i pro odborníky z jiných oblastí. Pole výzkumu se díky korpusům se otvírá např. pro odborníky zkoumající sociální psychologii. Korpusy obsahují přirozená naturalistická data, která není možné získat v laboratoři. Jedno z otázek, které patří do oblasti sociální psychologie je otázka jak a proč lidé vysvětlují některé věci. Projekt, který v roce 1987 Antaki a Naji provedli na London-Lund korpusu mluvené angličtiny se zaměřil právě na řešení tohoto problému a sice tak, že hledal výskyty textů následujících po příčinných a důsledkových spojkách. Závěr Na závěr bych chtěla shrnout čtyři výhody, které jsou společné korpusu a které z něj činí výhodnou bázi pro výzkum ve všech odvětvích výzkumu, o nichž jsme dnes hovořili. 1. Vzorkování a kvantitativní požadavky kladené na materiál korpusu z něj činí spolehlivou bázi pro generalizaci výsledků analýz. 2. Snadný přístup a počítačové zpracování urychlují získání dat všeho druhu. 3. Anotace poskytují data obohacená o informace, které by jinak bylo třeba pracně dodávat a dále s nimi pracovat. 4. Korpusy obsahují přirozená data (naturalistická data), neovlivněná laboratorními podmínkami, což zvyšuje objektivitu výsledků nezávislost.