Čeština cílový jazyk a korpusy

Podobné dokumenty
Čeština cílový jazyk a korpusy. Karel Šebesta Svatava Škodová a kolektiv

Čeština cílový jazyk a korpusy

Čeština doma & ve světě. [nová]

Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová

Specializované korpusy mluveného jazyka - jejich tvorba a využití

Korpusy češtiny a osvojování jazyka

Popis vzdělávacího programu nabízeného v současné době v podobě rozšiřujícího tříletého (6 semestrů) studia; akreditovaný program MŠMT

Podoba a využití korpusu jinojazyčných a romských mluvčích češtiny: CZESL a ROMi Zuzanna Bedřichová Karel Šebesta Kateřina Šormová Svatava Škodová

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Přijímací řízení zohledňující specifika nekvalifikovaných učitelů s dlouhodobou praxí (metodika)

METODICKÉ PROBLÉMY SBĚRU DAT PRO ÚČELY FORMATIVNÍHO HODNOCENÍ BADATELSKY ORIENTOVANÉ VÝUKY PŘÍRODOPISU

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Anotace žákovského korpusu. Alena Poncarová Žďárek, Listopad 2011

CÍLOVÝ JAZYK ČEŠTINA

Charakteristika předmětu Anglický jazyk

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Dobrovolná bezdětnost v evropských zemích Estonsku, Polsku a ČR

Charakteristika vyučovacího předmětu 1. stupeň

Itálie Dotazník pro učitele VŠ připravující budoucí učitele cizích jazyků Zpracování údajů

OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie

Malá didaktika innostního u ení.

Přijímací řízení zohledňující specifika nekvalifikovaných učitelů s dlouhodobou praxí (metodika)

Návrh projektů do OP VVV pro FHS:

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Vzdělávací aktivity ve vzdělávání

Karel Kučera 98 STUDIE Z APLIKOVANÉ LINGVISTIKY 1/2013

Příloha č. 3. Dotazník pro učitele pro jazykovou gramotnost

KDYŽ ZAČÍNÁME MLUVIT... Lingvistický pohled na rané projevy česky hovořícího dítěte. Lucie Saicová Římalová

Č. j.: TF/5/14 V Praze dne

ČEŠTINA PRO CIZINCE ČC / JEDNOOBOROVÉ MAGISTERSKÉ STUDIUM PREZENČNÍ

Služby pro studenty se sluchovým postižením uživatele verbálního jazyka

P 7311 Anglistika-amerikanistika ANGLICKÁ A AMERICKÁ LITERATURA

Vzdělávací oblast : Jazyk a jazyková komunikace Vzdělávací obor: Cizí jazyk

P 7311 Anglistika-amerikanistika ANGLICKÁ A AMERICKÁ LITERATURA Vstupní požadavky Uchazeč o studium by měl být absolventem magisterského studia

obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy

Hodnocení výukového programu tlumočnictví znakového jazyka na HiOA. Metodika připravovaného výukového programu tlumočnictví znakového jazyka na MU

Modul 3 Indikátory ke sledování jazykové gramotnosti

Strategie pro naplnění klíčových kompetencí v ročníku

Jazykové kurzy on-line a pod dohledem tutora

Východiska pro zapojování jiné řeči do ŠVP PV

Studijní obor doktorského studia Politologie (P0312D20548)

P 7310 Filologie SLOVANSKÉ LITERATURY

ŽÁDOST O AKREDITACI NAVAZUJÍCÍHO MAGISTERSKÉHO OBORU SVĚTELNÝ DESIGN STUDIJNÍHO PROGRAMU DRAMATICKÁ UMĚNÍ

Dodatek ke školnímu vzdělávacímu programu č. 2/2016

PEDAGOGIKA: OKRUHY OTÁZEK Státní závěrečná zkouška bakalářská

Rámcová hlediska hodnocení pro řízení ke jmenování profesorem. na UK v Praze, Farmaceutické fakultě v Hradci Králové platná od 1.

Předmět: Konverzace v ruském jazyce

Představujeme hybridní studijní obor: Český jazyk se specializací počítačová lingvistika. Rozhovor s Danou Hlaváčkovou

Matematika, informatika, projekty

UNIVERZITA KARLOVA PRAVIDLA PRO PŘIZNÁVÁNÍ STIPENDIÍ NA FARMACEUTICKÉ FAKULTĚ V HRADCI KRÁLOVÉ

PŘÍLOHA č. 19a) příruček pro žadatele a příjemce OP VaVpI. TEZE VÝZVY 1.3 Popularizace, propagace a medializace vědy a techniky

VÝVOJ ZÁVĚREČNÝCH ZKOUŠEK V UČEBNÍCH OBORECH, ANEB SITUAČNÍ ZPRÁVA A VÝHLED DO BUDOUCNA

Francouzský jazyk. Jazykové prostředky. Tematické okruhy. význam. Pravopis. zájmová činnost. projevu ve známých výrazech Gramatické kategorie na

Operační program Výzkum, vývoj a vzdělávání

Příloha č. 1. Podrobný rozpis podporovaných aktivit

AGOGIKA CHEMIE. Studium: Učitelství všeobecně vzdělávacích předmětů 2. stupně ZŠ a SŠ. Kurz: Oborová didaktika chemie

XLIII. zasedání Akademického sněmu Akademie věd České republiky. Praha 12. prosince Bod programu: 3

Systém ECTS: hraje důležitou úlohu při rozšiřování Boloňského procesu v globální dimenzi, kredity jsou klíčovým elementem (také kvůli své

Příloha č. 1. Podrobný rozpis podporovaných aktivit

Vyhlášení Fondu rozvoje vzdělávací a umělecké činnosti JAMU. pro rok 2015

Výnos děkanky FF UHK č. 23 /2018

Základy sociologie a psychologie metodické listy (B_ZSP)

3 Zapojení odborníků z praxe při vytváření a realizaci inovovaných studijních programů.

Výnos děkanky FF UHK č. 23/2016

Předškolní a mimoškolní pedagogika Odborné předměty Výchova a vzdělávání Metody výchovy a vzdělávání

PRAVIDLA SYSTÉMU ZAJIŠŤOVÁNÍ KVALITY A VNITŘNÍHO HODNOCENÍ KVALITY VZDĚLÁVACÍ, TVŮRČÍ A S NIMI SOUVISEJÍCÍCH ČINNOSTÍ VYSOKÉ ŠKOLY MEZINÁRODNÍCH A

Příloha 2: České pedagogické odborné časopisy (stav k červenci 2011) 1

Učitelé matematiky a CLIL

Podmínky pro přijetí ke studiu na ESF MU do bakalářských a navazujících magisterských studijních programů pro akademický rok 2014/2015

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

6.1 I.stupeň. Vzdělávací oblast: Cizí jazyk Vyučovací předmět: ANGLICKÝ JAZYK. Charakteristika vyučovacího předmětu 1.

Výuka odborného předmětu z elektrotechniky na SPŠ Strojní a Elektrotechnické

Francouzský jazyk. Náměty jeu de role skupinová práce jazykové hry domácí úkoly práce s časopisy

KOREANISTIKA (jednooborové bakalářské studium) B 7310 Filologie

germanistiky Katedra Filozofická fakulta Univerzita J. E. Purkyně v Ústí nad Labem Filozofická fakulta UJEP

Koncept a adaptace autoevaluačníhonástroje: Dotazník strategií učení se cizímu jazyku

TRANSDISCIPLINÁRNÍ DIDAKTIKA: O UČITELSKÉM SDÍLENÍ ZNALOSTÍ A ZVYŠOVÁNÍ KVALITY VÝUKY NAPŘÍČ OBORY

Kulatý stůl Centrum školského managementu. PaedDr. Nataša Mazáčová, Ph.D. Pedagogická fakulta UK Praha

Modularizace a modernizace studijního programu počáteční přípravy učitele fyziky

ONLINE PŘÍPRAVNÝ KURZ KE ZKOUŠCE TOEFL IBT (Internet Based

Studijní program Foresight for Environment and Development. Geoinformatika

Univerzita Karlova v Praze, Filozofická fakulta

Soulad studijního programu. Bioanorganická chemie

ZÁKLADNÍ METODOLOGICKÁ PRAVIDLA PŘI ZPRACOVÁNÍ ODBORNÉHO TEXTU. Martina Cirbusová (z prezentace doc. Škopa)

UČEBNÍ OSNOVY. Jazyk a jazyková komunikace Německý jazyk

Směrnice děkana č. 6/2013

Formální úprava bakalářských a diplomových prací Univerzita Karlova, Husitská teologická fakulta

Standard studijního programu Učitelství deskriptivní geometrie pro střední školy

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA

P 7310 Filologie TEORIE A DĚJINY LITERATUR ZEMÍ ASIE A AFRIKY

Studium Studium oboru IBEROAMERIKANISTIKA

Podmínky pro přijetí ke studiu na ESF MU do bakalářských a navazujících magisterských studijních programů pro akademický rok 2015/2016

Soulad studijního programu. Mezinárodní rozvojová studia. geografie B1301 Geografie 6702R004 Mezinárodní rozvojová studia

Kritéria evaluace elektrotechnické a elektronické stavebnice

PRACOVNÍ VERZE. Standard práce asistenta pedagoga. Pracovní verze: 09_2014 Určeno: k veřejné diskusi. Kolektiv autorů

Proč a jak se stát studentem

literatury a interpretace literárního díla) CC / 110. Česká literatura a kultura 19. století Jana Bischofová 2/1 Z 2/1 Zk

Plán realizace strategického záměru

Transkript:

TECHNICKÁ UNIVERZITA V LIBERCI Fakulta přírodovědně-humanitní a pedagogická Katedra českého jazyka a literatury Karel Šebesta Svatava Škodová a kolektiv Čeština cílový jazyk a korpusy Liberec 2012

Tato publikace vznikla v rámci projektu Inovace vzdělávání v oboru čeština jako druhý jazyk (CZ.1.07/2.2.00/07.0259) podpořeného z Evropského sociálního fondu a státního rozpočtu České republiky. Projekt se uskutečnil v letech 2008 2012 na Technické univerzitě v Liberci, partnery projektu byla Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka. Obsah 1. Cesty k žákovským korpusům Karel Šebesta................................................. 5 2. Parametry žákovských korpusů a CzeSL Karel Šebesta................................................ 13 3. Chybové taxonomie a možnosti chybové anotace v žákovských korpusech Barbora Štindlová............................................. 35 4. Anotace chybových textů v českém žákovském korpusu Vladimír Petkevič, Alexandr Rosen, Barbora Štindlová, Tomáš Jelínek, Milena Hnátková, Petr Jäger............................ 61 5. Jazyková chyba a práce s ní v jazykovém vyučování Milan Hrdlička............................................... 89 6. Budování specializovaného korpusu mluvčích ohrožených sociálním vyloučením a předpoklady jeho chybové analýzy databanka ROMi Zuzana Bedřichová, Kateřina Šormová.............................. 109 7. Nástin využití žákovských korpusů pro jazykové vyučování Svatava Škodová............................................ 125 8. Využití korpusových dat při výuce češtiny jako cizího jazyka Pavlína Vališová............................................. 139 Recenzenti: doc. PhDr. Marie Hádková, Ph.D., PhDr. Jiří Hasil, Ph.D. Literatura................................................. 151 Medailonky autorů........................................... 165 Karel Šebesta Svatava Škodová a kol., 2012 ISBN 978-80-7372-848-9

1. Cesty k žákovským korpusům Karel Šebesta Žákovské korpusy, resp. akviziční korpusy obecně, jsou v aplikované lingvistice a didaktice jazyka stále ještě nástrojem relativně novým. Akviziční korpusy (zahrnující v různé míře i data nerodilých mluvčích) začaly vznikat přibližně v polovině 80. let minulého století, samostatné korpusy žákovské (tj. specializované akviziční korpusy jazyka nerodilých mluvčích) přibližně od let devadesátých. Jejich využití však přináší natolik přesvědčivé výsledky, že je více než zřejmé, jak výrazné změny nejen ve studiu osvojování jazyka a pozdějšího jazykového vývoje žáků, ale také v jazykovém vyučování, v tvorbě jazykových slovníků, gramatik a učebních materiálů a dalších didaktických nástrojů jsou s nimi spojeny. Akviziční korpusy můžeme vymezit především jejich funkcí. Jsou to korpusy, které slouží primárně studiu procesů osvojování jazyka, včetně tzv. pozdějšího jazykového vývoje a užívání jazyka mluvčími, kteří (daný) jazyk neovládají na úrovni odpovídající úrovni dospělého rodilého mluvčího. Sekundárně mohou plnit a plní řadu důležitých funkcí v didaktice jazyka: jsou významným zdrojem dat při tvorbě učebnic a učebních pomůcek, jako jsou slovníky nebo gramatiky, při přípravě testů a jazykových cvičení různého typu a uplatňují se i přímo jako didaktický nástroj v jazykové výuce. Žákovské korpusy jsou jejich podtypem zachycují užívání jazyka nerodilými mluvčími, a uplatňují se tedy při studiu procesů osvojování a užívání druhého/cizího (souhrnně cílového) jazyka, resp. v jeho didaktice. Akviziční korpusy se opírají o dvojí tradici. Tu mladší představuje tradice korpusové lingvistiky, sahající přibližně do 60. let minulého století. Akviziční korpusy a jejich tvůrci využívají zejména technické a programové nástroje vyvinuté v korpusové lingvistice a sloužící zpracování jazykových dat a jejich prohledávání, v jisté míře i některé metodologické postupy při analýze dat a interpretaci výsledků. 1 1 Využitelnost korpusů pro jazykové vyučování byla badatelům a institucím působícím v oblasti jazykového vyučování zřejmá už při samém jejich vzniku. Již první korpus americké angličtiny, vytvořený H. Kučerou a N. Francisem koncem 60. let minulého století (tzv. Brown corpus), vyvolal zájem bostonského nakladatelství Houghton Mifflin a byl využit při sestavování slovníku American Heritage Dictionary, prvního slovníku využívajícího korpusová data. Sepětí korpusové lingvistiky s praktickým využitím korpusů v aplikacích různého druhu v dalších letech nesláblo, spíše naopak. V 80. letech sehrál v tomto směru významnou roli kolektiv badatelů Birminghamské university a jejich projekt COBUILD, z něhož vzešla celá řada didakticky využitelných slovníků, gramatik a dalších příruček. Cesty k žákovským korpusům 5

Vedle toho se však mohou opřít o více než dvousetletou tradici získávání a využívání záznamů řeči osob při studiu osvojování jazyka. 2 Ta nabízí badatelům jednak bohaté zkušenosti se získáváním jazykového materiálu a kontextových proměnných k němu i s jeho zpracováváním a analýzou, včetně ucelených a ověřených, byť z různých úhlů pohledu kritizovaných metodologických postupů, jako je kontrastivní studium jazyka nebo chybová analýza, jednak obecné teoretické rámce potřebné pro vyhodnocování a interpretaci výsledků. Povaha dat zaznamenávaných badateli v oblasti osvojování jazyka a způsob jejich záznamu se měnily v závislosti na řadě faktorů, v neposlední řadě na dostupnosti technických prostředků pro záznam (neuvažujeme zde o datech experimentálně elicitovaných k tomu viz kapitola 2). Zpočátku dominovaly záznamy deníkové; od 60. let s nástupem kvalitnější nahrávací techniky a s novým pohledem na osvojování jazyka, který přinesla generativní gramatika (především se zaměřením na jazykové univerzálie, na hledání systematičnosti ve formování jazykové kompetence dětí atd.), vznikají magnetofonové nahrávky založené na soustavném, dlouhodobém sledování jazykových projevů dětí a jejich vývoje. Zpravidla šlo o sbírky s jednorázovým využitím; v posledních letech před vznikem akvizičních korpusů se však objevily nahrávky a přepisy, které svým rozsahem i způsobem využití už připomínají korpusy elektronické. Jejich autor, Roger Brown, nepoužil získaná a přepsaná jazyková data pouze pro svůj vlastní výzkum, ale rozmnožil je a dal k dispozici větší komunitě badatelů. 3 To byl významný impuls pro vytvoření první velké, mezinárodní elektronické databanky jazyka dětí CHILDES; Brownovy nahrávky se po převedení do elektronické podoby ve standardizovaném formátu staly její první součástí. Databáze CHILDES dnes představuje zdaleka největší soubor akvizičních korpusů na světě, jak co do celkového objemu jazykových dat, tak co do počtu zastoupených jazyků a typů zaznamenaných textů. 4 V posledních desetiletích se v didaktické oblasti začínají stejnou měrou uplatňovat korpusy akviziční, včetně korpusů žákovských. 2 K tomu viz Šebesta, 2010, který uvádí i tradici domácí; k zahraniční, zvl. anglosaské tradici viz např. Ingram (1989), Aijmer (2009), Behrens (2008) aj. 3 R. Brown z nich čerpal především pro svou zásadní práci z r. 1973 A First Language: The Early Stages. K šíření jeho přepisů a jejich využívání dalšími badateli uvádějí např. J. L. Sokolov a C. E. Snowová (Sokolov, Snow, 1994, s. 2): Roger Brown made copies of transcripts from his study available to other researchers, using the state-of-the-art technology of the times, mimeography. The transcripts were typed, not onto paper, but onto mimeo masters, and as many copies as possible were then run off. Some masters generated more copies than others, and Roger with characteristic generosity had given copies away so freely that by 1983, when we went to collect a full set for inclusion in CHILDES, several sessions were down to the last copy, that one often embellished with marginal notes on negation by Ursula Bellugi, on morphological markers by Courtney Cazden, or other checks, codes, and analyses in unrecognized hands. 4 Práce na projektu CHILDES B. McWhinneyho a C. Snowové byly zahájeny v r. 1983. Dnes tato databáze zahrnuje řadu dílčích subkorpusů s celkovým objemem téměř 45 Stejné metody studia osvojování jazyka i sběru a zaznamenávání dat se využívaly a využívají jak u jazyka prvního, tak i druhého/cizího. To platí i o akvizičních korpusech, které od počátku zahrnovaly a zahrnují jak jazyková data rodilých mluvčích, tak často v různé míře i mluvčích nerodilých. Typickým dokladem je např. Arizona Corpus of Elementary Student Writing, vybudovaný na Northern Arizona University, který obsahuje více než 5000 esejů sebraných ze 40 tříd v 15 městech Arizony a napsaných studenty tří různých jazykových komunit: anglické, španělské a komunity Navajo (Biber et al., 1998), stejně jako např. Michigan Corpus of Academic Spoken English (MICASE), který zahrnuje přepisy mluvených projevů vzniklých v akademickém prostředí a obsahuje jak projevy mluvčích prvního jazyka, tak (v menší míře) mluvčích nerodilých, nebo analogický British Academic Spoken English (BASE) corpus, obsahující celkem 200 záznamů z různých kateder dvou britských univerzit a založený rovněž jak na angličtině jako prvním jazyku, tak v menší míře i na datech nerodilých mluvčích. Obecně akviziční zaměření má i projekt AKCES, Akviziční korpusy češtiny (viz dále). Žákovské korpusy (learner corpora) 5 jako samostatný subtyp korpusů akvizičních se zformovaly jen o několik málo let později, v 90. letech minulého století. 6 Poprvé se termín learner corpus objevil v komerční sféře začalo s ním pracovat nakladatelství Longman při tvorbě jazykových slovníků pro studenty angličtiny; na počátku éry akvizičních korpusů L2 byly tedy korpusy komerční. 7 milionů slov od dětí mluvících 28 různými jazyky (uváděno k r. 2008). Pro srovnání tento objem dat je téměř pětkrát větší, než je velikost druhého největšího mluveného korpusu (korpusu mluvené dánštiny, ten měl ve stejné době pouze 9 milionů slov; tamtéž), a devětkrát větší než objem třetího největšího, mluvené složky Britského národního korpusu, ten k uvedenému roku vykazoval rozsah 5 milionů slov (MacWhinney, 2008, s. 165 166). 5 Korpusy jazyky nerodilých mluvčích bývají vcelku jednotně označovány termínem learner corpus nebo jeho ekvivalentem v příslušném národním jazyce; méně často se setkáváme s alternativním označením interlanguage corpus. U nás se zpočátku pracovalo s termínem korpus studijní (Čermák, Schmiedtová, 2004), od r. 2009 se v souvislosti s budováním prvního korpusu tohoto typu pro češtinu začal uplatňovat termín korpus žákovský. Akviziční korpusy zaměřené na osvojování prvního jazyka jednotné označení postrádají. Někdy se setkáváme s termínem korpus vývojový (srov. McEnery, Xiao, Tono, 2006, s. 65 The term learner corpus is used here as opposed to a developmental corpus, which consists of data produced by children acquiring their first language), které je ovšem nepřesné, jindy s popisným pojmenováním korpus jazyka dětí, korpus jazyka mládeže apod. V této práci užíváme termín akviziční korpusy, pojednáváme-li o obecných charakteristikách korpusů tohoto typu; pro potřeby rozlišení pak užíváme termíny akviziční korpus L1, resp. L2, v druhém případě alternativně rovněž termín korpus žákovský. K užívané terminologii v této oblasti podrobněji viz Šebesta (2010). 6 Nepočítáme-li data získaná od nerodilých mluvčích a zařazená do obecně zaměřených akvizičních korpusů, jako je např. CHILDES. 7 Vedle korpusu Longman Learner s Corpus patří k nejznámějším komerčním korpusům tohoto typu korpus nakladatelství Cambridge University Press CLC (Cambridge Learner 6 Karel Šebesta Cesty k žákovským korpusům 7

Prvním známým nekomerčním korpusem zaměřeným výlučně na jazyk nerodilých mluvčích byl ICLE, International Corpus of Learner English, vytvářený od r. 1990 v Centre for English Corpus Linguistics (CECL) na Katolické univerzitě v Lovani, který od 90. let inspiroval řadu následovníků. ICLE, budovaný pod vedením S. Grangerové, zahrnuje úvahové a argumentativní nebo literární eseje 8 o minimálním rozsahu 500 a maximálním 1000 slov napsané studenty angličtiny jako cizího jazyka ve třetím nebo čtvrtém ročníku vysokoškolského studia. Skládá se z dílčích subkorpusů pocházejících od studentů z různých zemí, resp. s různými prvními jazyky, velikostně vyrovnaných každý má rozsah 200 000 slov. Stanoven byl rovněž minimální počet studentů pro každý subkorpus (200) a maximální velikost příspěvku každého z nich (1000 slov). Eseje mohli studenti psát ve svém volném čase nebo jako součást zkoušky, přípustné bylo použití slovníků nebo jiných příruček, např. mluvnic, nikoli však pomoc rodilých mluvčích angličtiny. V první publikované verzi zahrnoval ICLE eseje získané od studentů z 11 zemí s různými prvními jazyky (včetně češtiny); v druhé zveřejněné verzi přibylo dalších 5 zemí a celkový objem jazykových dat vzrostl z 2,5 milionu na 3,5 milionu slov (v počtu esejů je to nárůst z 3640 na 6085 textů). Projekt ICLE vedla S. Grangerová; ta vede i většinu lovaňských projektů navazujících na ICLE nebo se na jejich řešení alespoň podílí. Dnes uvádí CECL celkem 5 korpusových projektů: FRIDA, LINDSEI, LONGDALE, VESPA, TeMa, LOCNEC, dále jinak zaměřené korpusy PLECI a MULT-ED. Korpus FRIDA (French Interlanguage Database) obsahuje texty psané ve francouzštině a je rozdělen do tří subkorpusů podle toho, zda je prvním jazykem žáků, od nichž texty pocházejí, angličtina, dánština nebo nějaký jiný jazyk. 9 LINDSEI (Louvain International Database of Spoken English Interlanguage) představuje mluvený protějšek korpusu ICLE, obsahuje tedy mluvený jazyk pokročilých studentů angličtiny s různými prvními jazyky. Jeho budování bylo zahájeno r. 1995 vytvořením souboru přepisů 50 rozhovorů se studenty angličtiny s francouzštinou jako prvním jazykem o celkovém objemu 100 000 slov. Dnes se uvádí celkem 11 takových kom- Corpus). Angažovanost významných nakladatelství, která jsou zaměřena alespoň částí své produkce na vydávání učebnic, slovníků, mluvnic a dalších materiálů určených pro jazykovou výuku, v tvorbě akvizičních korpusů dokládá zřetelně jejich praktickou užitečnost. 8 Literární eseje nemají tvořit více než čtvrtinu celkového objemu každého subkorpusu (vymezeného prvním jazykem studentů). Mimo okruh zájmu tvůrců ICLE jsou texty popisné či vyprávěcí a texty na technická témata. ( Jak se uvádí v pokynech, není tedy vhodné zadat téma The British Electoral System, ale např. téma The British Electoral System is no guarantee of democracy.) Omezení na argumentativní a literární eseje se přeneslo i do některých dalších korpusů, které se metodicky o ICLE opírají; korpus češtiny toto omezení nepřebírá. 9 Viz http://www.uclouvain.be/en-cecl-frida.html. ponent s různými prvními jazyky dokončených a zveřejněných a ještě větší počet ve fázi zpracování, všechny se stejnou strukturou: rozhovor na zadané téma, volná diskuse a popis obrázku. Srovnávacím korpusem pro LINDSEI je korpus rozhovorů s rodilými mluvčími angličtiny LOCNEC. 10 Projekty LONGDALE (Longitudinal Database of Learner English) a VESPA byly zahájeny o 3 roky později než LINDSEI. Zatímco ICLE a LINDSEI jsou korpusy průřezové, LONGDALE je databáze založená na dlouhodobém sběru anglických projevů týchž mluvčích (s různými prvními jazyky) po dobu minimálně tří let, od prvního do třetího ročníku jejich studia na lovaňské univerzitě. Sběr materiálu probíhá minimálně jednou ročně a týká se textů různého druhu; v prvních třech letech sběry zahrnovaly pouze psané argumentativní eseje; studenti mohli volit ze čtyř různých témat a eseje měly stanovený rozsah od 500 do 700 slov. Cílem projektu VESPA (The Varieties of English for Specific Purposes Database) bylo vytvořit databázi anglických textů různých žánrů (články, zprávy, disertační práce) vztahujících se k různým oborům (lékařství, biologie, ekonomie, jazykověda, právo atd.) a vytvořených nerodilými mluvčími s různými prvními jazyky a s různou úrovní zkušeností v psaní anglických textů tohoto typu, od studentů prvního ročníku univerzity po studenty doktorského studia. 11 Další korpusy CECL už nelze označit jako korpusy žákovské, třebaže některé z nich vztah k jazykovému vzdělávání mají; především to platí o korpusu TeMa, zahrnujícím jazykový materiál učebnic angličtiny jako cizího jazyka o celkovém rozsahu více než 724 tisíc slov. 12 ICLE předznamenal etapu budování žákovských korpusů i na dalších univerzitách v různých zemích světa, převážně v Evropě a na Dálném východě. Naprostá většina těchto korpusů zachycuje jako cílový jazyk angličtinu. Přesné údaje o světových žákovských korpusech je obtížné získat, protože jde o oblast velmi dynamickou, rychle se rozvíjející, a ne všechny existující korpusy jsou zveřejněny. Určitou představu o existujících žákovských korpusech si lze učinit na základě přehledu světových žákovských korpusů na stránkách CECL. 13 Z celkového počtu cca 90 tam uváděných korpusů je přibližně 60 věnováno angličtině jako cílovému jazyku a z celkového objemu cca 100 milionů slov (údaje o velikosti ovšem nejsou u všech korpusů uváděny) připadá na angličtinu více než 95 %. Větší žákovské korpusy (zpravidla do 1 milionu slov) najdeme ještě u některých dalších větších indoevropských jazyků němčiny, francouzštiny, španělštiny, italštiny. Jazyky střední a menší velikosti (počtem mluvčích) jsou zastoupeny žákovskými 10 Viz http://www.uclouvain.be/en-cecl-lindsei.html; http://www.uclouvain.be/en-cecllocness.html. 11 Viz http://www.uclouvain.be/en-cecl-vespa.html. 12 Viz http://www.uclouvain.be/en-cecl-tema.html. 13 Viz http://www.uclouvain.be/en-cecl-lcworld.html. Pokud není odkázáno na jiný pramen, opírají se všechny číselné údaje v tomto textu o tento zdroj. 8 Karel Šebesta Cesty k žákovským korpusům 9

korpusy s významnějším objemem jazykových dat jen ojediněle; v citovaném přehledu jsou to např. švédština (The ASU corpus Andraspråkets strukturutveckling), estonština (EIC The Estonian Interlanguage Corpus) a nyní rovněž čeština (korpus CzeSL Czech as a Second Language). Ze slovanských jazyků se dosud uvádí vedle českého korpusu pouze slovinský PiKUST o objemu 35 000 slov. Repertoár prvních či výchozích jazyků je poněkud pestřejší, především proto, že některé korpusy, zvl. lovaňský a rovněž oba uvedené korpusy komerční, zahrnují jazyková data studentů s prvními jazyky různými. Jednoznačnou převahu však mají mluvčí jazyků dálněvýchodních, zejména čínštiny, s velkým odstupem pak japonštiny a korejštiny. Od čínských mluvčích pochází téměř třetina dat v dosud známých nekomerčních žákovských korpusech. Převaha čínštiny jako prvního jazyka je dána především díky velkému korpusu angličtiny čínských studentů HKUST (Hong Kong University of Science and Technology Learner Corpus) o udávané velikosti 25 milionů slov, ale i řadě korpusů dalších, méně objemných, jako je SWECCL (The Spoken and Written English Corpus of Chinese Learners, cca 2 miliony slov), CLEC (Chinese Learner English Corpus, cca 1 milion slov), MSEE (Corpus for Middle School English Education, 2,3 milionu slov), TLCE (The Taiwanese Corpus of Learner English, cca 2 miliony slov) aj. Situace na poli žákovských korpusů se samozřejmě rychle mění a přehled, o nějž tyto informace opíráme, nemusí být zcela spolehlivý; masivní převaha angličtiny jako jazyka cílového a čínštiny jako jazyka výchozího je však faktem těžko zpochybnitelným. Čeština byla od 90. let v žákovských korpusech zastoupena pouze jako první, výchozí jazyk v jednom ze subkorpusů lovaňského ICLE s angličtinou jako jazykem cílovým (v obvyklém rozsahu 200 000 slov). Situace se začala měnit v r. 2005, kdy byl na Univerzitě Karlově v Praze zahájen projekt AKCES/CLAC (Akviziční korpusy češtiny/czech Language Acquisition Corpora), směřující k vybudování souboru akvizičních korpusů českého jazyka, včetně korpusu češtiny nerodilých mluvčích. AKCES je koncipován jako relativně volný komplex korpusů sloužících primárně potřebám studia osvojování jazyka v jeho třech základních podobách: (a) osvojování prvního jazyka/prvních jazyků v raném věku, (b) tzv. pozdějšího jazykového vývoje ve věku školním a (c) osvojování jazyka druhého/cizího (souhrnně cílového), ale také (d) potřebám studia oslabování/rozpadu jazyka, prvního i druhého. 14 14 Procesy spojené s oslabováním/rozpadem jazyka jsou jako protějšek procesů jeho osvojování významným zdrojem poznání hybných faktorů vývoje jazykové a komunikační kompetence člověka. Korpusy takto zaměřené jsou však zatím ve světovém měřítku jen velmi řídké (Yoshitomi, 2007). Uvedené čtyři oblasti zájmu AKCESu jsou přirozeně ještě dále strukturovány; pozornost je např. věnována nejen osvojování češtiny jako cílového jazyka, ale rovněž fungování češtiny Prvním zveřejněným korpusem AKCES byl korpus SCHOLA2010 (přepisy nahrávek vyučovacích hodin na českých základních a středních školách), zveřejněný na adrese http://ucnk.ff.cuni.cz/schola.php) 15 a korpus SKRIPT2012 (přepisy slohových prací českých žáků na různých úrovních školní docházky), 16 zatím ve fázi závěrečných úprav; oba vznikly s finanční podporou VZ MSM 21620825, vedeného Z. Starým. Ve vazbě na AKCES byla zpracována koncepce prvního žákovského korpusu češtiny CzeSL (Czech as a Second Language), který vzniká od r. 2009 jako jeden z výstupů projektu Inovace vzdělávání v oboru čeština jako druhý jazyk (číslo CZ.1.07/2.2.00/07.0259) v rámci OP Vzdělávání pro konkurenceschopnost, s finanční podporou Strukturálních fondů EU (ESF) a státního rozpočtu České republiky a ve spolupráci Technické univerzity v Liberci, Univerzity Karlovy v Praze a Asociace učitelů češtiny jako cizího jazyka. 17 Předkládanou monografií se kolektiv autorů spjatých s uvedeným projektem snaží seznámit podrobněji českou veřejnost odbornou a zejména učitelskou s problematikou žákovských korpusů a v tomto širším kontextu představit rovněž první žákovský korpus češtiny CzeSL, jeho zaměření, parametry, vybavenost lingvistickými a zejména chybovými anotacemi a ukázat na možnosti jeho využití, v neposlední řadě ve výuce. O specifických vlastnostech žákovských korpusů v porovnání s obecnými lingvistickými korpusy synchronními pojednává druhá kapitola, zároveň se v ní uvádějí některé podstatné charakteristiky světových žákovských korpusů a na tomto obecném pozadí jsou stručně představeny základní parametry CzeSL. Následující čtyři kapitoly se věnují význačnému rysu jazyka nerodilých mluvčích, totiž jeho chybovosti, a to jednak z hlediska žákovských korpusů a práce s chybami při jejich budování, přesněji z hlediska systémů chybové anotace korpusů tohoto typu (tedy identifikace a emendace chyb, v omezenější míře jejich deskripce, vzácjako prvního jazyka při osvojování jazyků cizích, jazykovému vývoji mládeže ze sociálně a kulturně znevýhodněných komunit, dětskému bilingvismu apod. 15 Korpus byl vytvořen na Filozofické fakultě Univerzity Karlovy v Praze, projekt probíhal s podporou výzkumného záměru MSM 0021620825 ( Jazyk jako lidská činnost, její produkt a faktor); vedoucí projektu K. Šebesta, koordinátorka projektu H. Goláňová. 16 Korpus vzniká rovněž na Filozofické fakultě Univerzity Karlovy v Praze, vedoucí projektu K. Šebesta, na koordinaci prací se podílely především J. Letafková a B. Jelínková, v závěrečné fázi též H. Goláňová a E. Hlaváčková. 17 Příjemcem podpory je TU v Liberci, na řešení se partnersky podílí UK v Praze a Asociace učitelů češtiny jako cizího jazyka. Řešení se účastní několik pracovišť z obou univerzit: z TUL je to KČL Fakulty přírodovědně-humanitní a pedagogické, z UK ÚJOP a několik ústavů FF UK: ÚČJTK, ÚTKL, ÚBS a ÚČNK, dále řada studentů doktorského, magisterského i bakalářského studia. Velkou zásluhu na vzniku korpusu mají i četná pracoviště neakademická, především základní a střední školy z různých regionů ČR, občanská sdružení a řada individuálních spolupracovníků. 10 Karel Šebesta Cesty k žákovským korpusům 11

ně i evaluace), jednak z hlediska možností pracovat s chybami konkrétních skupin mluvčích ve výzkumu a v jazykovém vyučování. Chybovou anotací ve světových žákovských korpusech se zabývá kapitola 3. Chybová anotace žákovských korpusů byla zatím uplatněna převážně u jazyků s poměrně chudou flexí a pevným slovosledem. Při chybové anotaci českých jazykových dat byl řešitelský tým nucen vyrovnat se se specifickými problémy, které s sebou nesou typologické charakteristiky češtiny a také povaha materiálu, který je do CzeSL zařazen (vysoce chybové texty začátečníků). Unikátní model vícerovinné chybové anotace, který byl s ohledem na tyto faktory vyvinut, zvolená taxonomie chyb, proces chybové anotace a jeho programové zajištění jsou představeny v kapitole 4. Kapitola 5 pojednává obecněji o pojetí chyby v české lingvistické tradici a o hodnocení chyby v projevech rodilých a nerodilých mluvčích; chybovostí jedné skupiny mluvčích (dětí ze sociokulturně handicapovaných komunit) se zabývá kapitola 6, která představuje v této souvislosti jeden ze subkorpusů CzeSL ROMi. Poslední dvě kapitoly jsou věnovány využití žákovského korpusu v jazykovém vyučování; kapitola 7 podává nástin využití žákovských korpusů pro jazykové vyučování, kapitola 8 představuje specifičtěji možnosti využití korpusových dat při výuce češtiny jako cizího jazyka. CzeSL bude zpřístupněn výzkumnému i pedagogickému využití v r. 2012. Věříme, že se stane dobrým a užitečným pomocníkem badatelům, studentům i učitelům. 2. Parametry žákovských korpusů a CzeSL Karel Šebesta Žákovské korpusy a akviziční korpusy obecně 18 patří mezi tzv. korpusy speciální. J. Sinclair, který s tímto termínem pracuje, je vymezuje jako takové korpusy, které nesplňují některý či některé z parametrů u obecných lingvistických korpusů synchronních očekávaných, a které proto nemohou sloužit jako zdroj dat pro popis normálního užití daného jazyka. 19 Tyto odlišnosti se týkají řady rysů: velikosti korpusu, výběru jazykového materiálu, zvláště jeho autenticity a reprezentativnosti ve vztahu k jazyku, repertoáru zaznamenávaných metadat atd. Ve všech těchto a některých dalších relevantních parametrech vykazují žákovské korpusy jiné hodnoty než obecné lingvistické korpusy synchronní. V této kapitole si postupně postupně zejména (a) velikosti žákovských korpusů, (b) povahy sbíraných dat, zvl. toho, že jde o data mezijazyka (interlanguage), a jejich autenticity, (c) sledovaných metadat, tj. metadat vztahujících se k textu, k situaci jeho vzniku a sběru a k jeho autorovi, dále (d) specifik v zaznamenávání a dalším zpracování jazykových dat pro žákovské korpusy. Na tomto pozadí pak představíme příslušné parametry CzeSLu, korpusu češtiny nerodilých mluvčích. 18 V dalším textu se budeme zabývat výlučně korpusy žákovskými a žákovským korpusem češtiny CzeSL. Naprostá většina uváděných skutečností se však týká ve větší nebo menší míře akvizičních korpusů obecně. 19 Sinclair, 1996: a corpus is assumed to have certain characteristics attached, with default values. Unless stated, these characteristics are attributed to anything called a corpus. A corpus which has one or more non-default values for these characteristics is termed a special corpus: its title should specify its deviations from the assumptions The special corpora are those which do not contribute to a description of the ordinary language, either because they contain a high proportion of unusual features, or their origins are not reliable as records of people behaving normally Corpora of the language of children, geriatrics, non-native speakers, users of extreme dialects and very specialised areas of communication (like the heraldic blazon or the knitting pattern, or the auctioneer s pattern) should also be designated special corpora because of the unrepresentative nature of the language involved. 12 Karel Šebesta Parametry žákovských korpusů a CzeSL 13

2.1. Velikost žákovských korpusů; korpusy průřezové a vývojové Objemem jazykových dat se žákovské korpusy od obecných korpusů lingvistických liší velmi nápadně. Charakteristické je, že se jejich velikost vyjadřuje jen zřídka v milionech slov, většinou jen ve statisících nebo desetitisících, a počítají se dokonce i jednotlivé tisíce slov (Pilot Arabic Learner Corpus, korpus angličtiny jako druhého jazyka arabských mluvčích, např. vykazuje velikost 9000 slov, PiKUST, korpus slovinštiny nerodilých mluvčích, 35 000 slov apod.). V přehledu světových žákovských korpusů, který na svých webových stránkách zveřejňovalo donedávna CECL, měly ze 67 korpusů, u nichž byla uvedena velikost, pouze tři objem větší než 10 milionů slov. 20 Žákovské korpusy milionové nebo několikamilionové jsou známy téměř výlučně pouze pro angličtinu jako cílový jazyk, korpusy neanglické se této velikosti přibližují zatím jen výjimečně. Pokud bychom tyto počty porovnávali s miliardovými počty slov ve velkých lingvistických korpusech obecných, musili bychom konstatovat, že jsou to hodnoty zcela zanedbatelné (např. nereferenční korpus SYN v rámci Českého národního korpusu uvádí velikost 1 300 milionů slov). Malé objemy žákovských korpusů souvisí s velkou obtížností sběru dat od nerodilých mluvčích a náročností jejich zpracování. Sběr dat je obtížný nejen proto, že celkový objem jazykových projevů nerodilých mluvčích je sám o sobě ve srovnání s projevy rodilých mluvčích malý, ale také proto, že jsou tyto projevy většinou obtížněji dostupné a sbírají se v malých množstvích. To přirozeně žákovské korpusy znevýhodňuje ve srovnání s obecnými lingvistickými korpusy, které mohou získávat velká množství dat už v elektronické či oskenované podobě. Jejich získávání přirozeně rovněž naráží na četné překážky (srov. Čermák, 2011, s. 18), ve srovnání se situací při tvorbě žákovských korpusů znamená však tato možnost obrovskou výhodu. K tomu musíme připočítat skutečnost, že projevy nerodilých mluvčích se sbírají zpravidla jako nahrávky nebo v rukopisné podobě, že se tedy musí manuálně přepisovat nejen materiál mluvený, ale i psaný (mnohé žákovské korpusy se textům psaným na počítači vyhýbají, protože by mohl být výsledek zkreslen automatickými opravami, nebo je alespoň doplňují texty rukopisnými). Náročnost sběru zvyšuje i potřeba zaznamenávat u každého mluvčího a textu rozsáhlý soubor sociologických a didaktických informací, které jsou pro využití korpusu relevantní; u obecných lingvistických korpusů jsou tyto údaje podstatně skromnější. (Při hledání v korpusu SYN2009pub můžeme např. zjistit, v kterém médiu a který den byl určitý text zveřejněn, ale nedostáváme ani neočekáváme informaci o autorovi nebo okolnostech vzniku textu, o tom, zda prošel korekturou či korekturami, zda bylo autorovi téma 20 Data uváděna podle přehledu světových žákovských korpusů na adrese http://www. uclouvain.be/en-cecl-lcworld.html. zadáno apod. Omezenější jsou i informace u korpusů mluvených, třebaže u nich už jsou zaznamenána základní data o mluvčím, jako je věk, vzdělání nebo regionální příslušnost.) Větší velikosti zpravidla dosahují ty korpusy, které mají usnadněnu spolupráci se školami, jež jim jazykovou produkci nerodilých mluvčích mohou poskytnout. Zatím všechny známé žákovské korpusy, které přesáhly minimální rozsah a vykazují nyní více než 10 milionů slov, jsou založeny plně nebo z velké části na textech vytvořených jako součást jazykových zkoušek a jsou podporovány školami, které takové zkoušky organizují (dobrým příkladem je komerční korpus CLC, Cambridge Learner Corpus, o rozsahu cca 35 milionů slov, který zahrnuje texty ze zkoušek) 21, popř. jejich sestavovatelé se školami spolupracují na komerčním či jiném základě (např. druhý velký komerční korpus LLC, Longman Learners Corpus, vzniká z esejů a textů ze zkoušek, které školy zasílají výměnou za slovníky z produkce Longman). Na textech vzniklých v rámci oficiálních zkoušek jsou založeny i větší korpusy nekomerční. Písemné práce vzniklé v rámci maturitních zkoušek jsou např. součástí jednoho z největších korpusů HKUST, Hong Kong University of Science & Technology learner corpus. Rovněž větší žákovské korpusy mluvené se opírají o data vzniklá při školním testování mluveného projevu v angličtině např. mluvená složka korpusu BICCEL, Bilingual Corpus of Chinese English Learners, čerpá z nahrávek získaných při národním testu mluvené angličtiny, korpus NICT JLE, Japanese Learner English, je rovněž založen na testech mluvené angličtiny a stejně tak i korpus SWECCL, Spoken and Written English Corpus of Chinese Learners. Malý objem jazykových dat přirozeně znamená pro tvůrce korpusů významné omezení. Žákovské korpusy proto bývají často zaměřeny pouze na jazyk omezeného okruhu mluvčích, např. pouze jednoho prvního jazyka, pouze jedné či dvou úrovní ovládání cílového jazyka, omezují se na projevy malého počtu žánrů atp. To zároveň limituje i možnosti badatelské práce s nimi a klade značné nároky na výběr vhodného segmentu nerodilých mluvčích a jejich jazykových projevů, na něž se plánovaný žákovský korpus zaměří, primárně přirozeně se zřetelem ke konkrétnímu badatelskému záměru, ale i s výhledem na navazující možnosti dalšího badatelského či didaktického využití. Klíčovým rozhodnutím je především volba mezi korpusem průřezovým (transverzálním), tedy takovým, který zachycuje projevy různých žáků v jedné etapě jejich jazykového vývoje, longitudinálním, který zachycuje projevy téhož žáka nebo týchž žáků v různých etapách jeho či jejich jazykového vývoje, a pseudolongitudinálním, 21 Na oficiálních webových stránkách (http://www.cambridge.org/gb/elt/catalogue/ subject/custom/item3646603/cambridge-international-corpus-cambridge-learner- Corpus/?site_locale=en_GB) se uvádí, že CLC v současné době zahrnuje soubor více než 135 tisíc textů vzniklých jako součást některé ze zkoušek ESOL (celkem v deseti úrovních, od úrovně odpovídající úrovni A2 referenčního rámce). Tento objem odpovídá 135 tisícům studentů ze 190 různých zemí se 130 různými prvními jazyky. 14 Karel Šebesta Parametry žákovských korpusů a CzeSL 15

který zachycuje projevy různých žáků v různých etapách jejich jazykového vývoje (oba posledně uvedené typy korpusů lze označit souhrnně jako vývojové). Mezi dnes existujícími žákovskými korpusy jsou zastoupeny v zásadě všechny uvedené typy. Relativně řidší jsou korpusy longitudinální, které vyžadují pravidelné sledování týchž žáků po delší souvislou periodu, u cizinců to nebývá snadné. Longitudinální data uvádějí hlavně korpusy spojené se sledováním cizího jazyka u školních dětí nebo vysokoškolských studentů, jejichž dlouhodobější sledování je snazší. Např. BELC (Barcelona English Language Corpus) obsahuje data získaná od dětí a mládeže písemné práce, ústní vyprávění, rozhovory a hraní rolí; data školních dětí obsahuje CYLIL (Corpus of Young Learner Interlanguage), o písemné i ústní projevy studentů se opírá LONGDALE (LONGitudinal DAtabase of Learner English). Longitudinální povahu mají také data obsažená v Telecollaborative Learner Corpus of English and German Telekorp, u něhož bylo dlouhodobé sledování usnadněno zvoleným médiem jde o bilingvální korpus zahrnující počítačem zprostředkované výměny mezi 200 Američany a Němci. Většina korpusů však má povahu korpusů průřezových nebo pseudolongitudinálních a smíšených. U nich je podstatné, které fáze jazykového vývoje nerodilých mluvčích zachycují. Pro studium vývoje jazykové kompetence žáků je důležité, aby osvojování jazyka bylo korpusovými daty pokryto pokud možno v co největší míře. U angličtiny nebo dalších jazyků vybavených větším počtem žákovských korpusů je to snazší, jejich souhrn pokrývá přinejmenším celé spektrum ovládání jazyka, od začátečníků po ty nejpokročilejší. 22 U jazyků menších, jako je čeština, kde nelze dostatečně velký počet žákovských korpusů v dohledné době očekávat, je účelné usilovat o co největší pokrytí alespoň jazykového vývoje od počátku. 2.2. Jazyková data v žákovských korpusech Tvůrci obecných lingvistických synchronních korpusů vycházejí z více či méně zřetelně vyjádřeného předpokladu, že tyto korpusy, jsou-li adekvátně sestaveny, reprezentují daný jazyk jako celek nebo k tomu směřují. Reprezentativnost obecného lingvistického korpusu vůči celku národního jazyka je požadavkem obecně přijímaným jako cíl, k němuž tvůrci korpusu směřují, nikoli jako cíl, jehož by bylo v současné době možno dosáhnout. Srov. např. vyjádření F. Čermáka (2011, s. 16), který za lingvistický pokládá takový korpus, který umožňuje vyvážené a reprezentativní zkoumání relativně celého jazyka, nikoliv jeho části, často v nezdůvodněných proporcích. 22 Úplný obraz angličtiny jako druhého/cizího jazyka přirozeně nepodávají, ale takovou aspiraci žákovské korpusy ani nemají. Podstatné je přitom nejen slovo relativně, ale i poukaz na (ne)zdůvodněné proporce. Kritéria, podle nichž se stanovují náležité proporce jednotlivých typů textů zařazených do korpusu, mohou být různá. U psané složky Českého národního korpusu je to zřetel k recepci, tedy k čtenosti jednotlivých typů textů (Čermák, Králík, Kučera, 1997). U korpusů mluvených je ovšem obtížné takové kritérium uplatnit, ale odpovídá mu snaha získat pro mluvený korpus pokud možno jazyk prototypicky mluvený. 2.2.1. Žákovské korpusy jako korpusy mezijazyka Žákovské korpusy takovou ambici, přispívat ke zkoumání národního jazyka, nemají. Dalo by se dokonce říci, že nesměřují ani k studiu jeho, třeba nedokonalého užívání nerodilými mluvčími. Současné koncepce osvojování cílového jazyka se sice v řadě bodů liší, shodují se však v tom, že jazykový systém zakládající řečový projev žáka, který si cílový (cizí/ druhý) jazyk osvojuje, je samostatný, svébytný útvar, odlišný od jazyka cílového, velmi variabilní a dynamický, jehož vývoj i užívání se řídí zřetelnými, rozpoznatelnými zákonitostmi a závisí na celé řadě vnějších i vnitřních faktorů. Aby se vyjádřil jeho přechodný charakter, bývá tento systém v dnešních teoriích osvojování a užívání druhého jazyka označován jako mezijazyk (interlanguage). 23 Předmětem zájmu badatelů při výzkumu osvojování druhého jazyka a také předmětem zájmu tvůrců žákovských korpusů je právě tento mezijazyk, jeho vývoj, užívání a prožívání, jeho proměnlivost a faktory, které ji ovlivňují. Proto také bývají konkrétní žákovské korpusy někdy alternativně označovány jako korpusy mezijazyka (srov. ARIDA Arabic Interlanguage Database; FRIDA French Interlanguage Database; CYLIL The Corpus of Young Learner Interlanguage; ICCI The International Corpus of Crosslinguistic Interlanguage; NICKLE The Neungyule Interlanguage Corpus of Korean Learners of English; EIC The Estonian Interlanguage Corpus). Rovněž jedna z nejrozšířenějších analýz jazykových dat založená na využití žákovských korpusů nese název kontrastivní analýza mezijazyka či mezijazyků (CIA Contrastive Interlanguage Analysis). Primární funkcí žákovských korpusů je sloužit jako zdroj dat pro empirické studium mezijazyka v jeho vývoji a v jeho variabilitě (k tomu viz dále, oddíl 2.3). Nepředpokládá se, že žákovský korpus bude reprezentativní vůči cílovému jazyku nerodilých mluvčích nebo jejich mezijazyku jako celku, to při obrovské variabilitě mezijazyka není dost dobře možné ani by to nebylo užitečné, ale že umožní studovat jeho proměnlivost ve vztahu k co největšímu počtu sledovatelných a pečlivě zaznamenávaných faktorů. 23 Termín interlanguage poprvé použil H. Selinker počátkem 70. let; přibližně tomuto pojmu odpovídá termín idiosynkratický dialekt P. Cordera; podrobněji k tomu C. James (1998). 16 Karel Šebesta Parametry žákovských korpusů a CzeSL 17

To také znamená, že uvažujeme-li u žákovských korpusů o vyváženosti, je tato vyváženost vázána nikoli na recepci, jak je tomu u obecných lingvistických korpusů synchronních, ale na produkci jazyka. To je další z jejich podstatných odlišností od obecných korpusů lingvistických. Důležitým kritériem kvality žákovských korpusů je pak míra zastoupení různých externích proměnných, které variabilitu a užívání mezijazyka ovlivňují, přirozeně v závislosti na tom, jakému výzkumu má žákovský korpus sloužit. 2.2.2. Autentičnost dat Verbální produkce žáků je pouze jedním ze tří typů dat užívaných ve výzkumu osvojování jazyka obecně (tedy nikoli pouze vývoje mezijazyka). Vedle toho se pracuje ještě s performančními daty, která nezahrnují verbální produkci (lze je získat např. zaznamenáváním neverbálních reakcí prokazujících porozumění, měřením reakčního času, testováním úsudku žáků o gramatičnosti vyjádření apod.), a se zprávami žáků o učení se jazyku a jeho užívání, založenými na introspekci (Ellis, 2008, s. 912). Jazyková produkce je zdroj využívaný ve výzkumu tradičně. Pracuje se přitom s produkcí značně rozrůzněnou, zejména podle míry její spontaneity a volnosti, resp. naopak řízenosti. K tomu se vztahuje další důležitý pojem užívaný v korpusové lingvistice autentičnost jazykových dat. Obecné lingvistické synchronní korpusy jsou založeny, jak se uvádí, na autentických jazykových datech, tedy na datech, která vznikla v reálné, autentické komunikační situaci; data neautentická nejsou do takových korpusů zařazována (Sinclair, 1996). Výzkum osvojování a užívání jazyka žáky pracuje s členěním jemnějším. Základní rozlišení na texty vzniklé ze skutečné komunikační potřeby a texty ostatní se vnímá jako příliš hrubé, protože nedovoluje přihlédnout k různým podmínkám, za nichž text vzniká a které mohou míru jeho autenticity ovlivnit. V pojetí užívaném v studiu osvojování a užívání jazyka žáky je autenticita rozložena na škále, na jejímž jednom pólu stojí přirozené, volné, neřízené vyjadřování v autentických situacích reálného života, ideálně jejich vernakulární projevy, na druhém pólu vyjadřování, které je jasně řízeno jinou osobou než mluvčím s primárním zřetelem k (jazykové) formě sdělení (experimentálně elicitované projevy). V širokém pásmu mezi oběma póly se nacházejí projevy, které byly rovněž elicitovány jinou osobou (rodičem, učitelem, badatelem, sběračem), ale s pozorností zaměřenou na obsah či funkci sdělení, nikoli na jeho jazykovou formu. Tyto projevy bývají označovány jako projevy klinicky elicitované (Ellis, Barkhuizen, 2005, s. 23). Do této kategorie náleží mj. rovněž eseje a slohové práce vytvářené pro školní účely. Míra jejich řízenosti může být různá v závislosti na řadě faktorů, především na detailnosti a způsobu zadání, na povaze činností organizovaných před vlastní verbální produkcí, na charakteru, síle a frekvenci intervenčních zásahů učitele nebo výzkumníka při produkci atd. Žákovské korpusy mohou jen velmi zřídka čerpat z dat skutečně autentických, zejména pokud se neomezují na produkci žáků na nejvyšších úrovních ovládání cílového jazyka ( přirozená produkce žáků v cílovém jazyce je zejména na nižších úrovních jeho ovládání značně omezena nejen kvantitativně, ale i funkčně, tematicky a žánrově) a nezískávají ji v tzv. přirozeném prostředí (pokud se žák učí cizí jazyk mimo příslušné jazykové prostředí, užívá ho aktivně téměř výlučně pouze při výuce). 24 Zaměřují se většinou na sběr dat klinicky elicitovaných, získaných v typicky školních situacích jak jsme uváděli, jde většinou o eseje psané v rámci zkoušek, o ústní projevy při zkouškách, dále o eseje psané přímo pro korpus či interview namluvená rovněž pro korpus. Někteří badatelé, snad pod vlivem požadavku autenticity jako obligatorního pro jazykové korpusy (Sinclair, 1996), pokládají i tento typ dat za data autentická, 25 s tím, že např. psaní esejů jako součást výuky je rovněž autentická aktivita ve třídě. Takový přístup však stírá principiálně podstatný rozdíl mezi daty vzniklými v přirozených situacích mimo výukový kontext a daty spjatými ve větší nebo menší míře s výukou (u nich můžeme přinejmenším očekávat tlak prostředí směrem k užívání mezijazyka co nejbližšího jazyku cílovému) a vede k tomu, že se někdy i texty čtené nahlas mohou pokládat za autentická mluvená data. 26 Čtené texty a čtené seznamy izolovaných, spolu nesouvisejících slov jsou zařazovány jako jedna ze složek do řady mluvených korpusů. Souvisí to s potřebou získat materiál pro studium zvukové stránky mezijazyka a její proměnlivosti, zvl. v závislosti na péči (míře pozornosti), kterou mluvčí zvukové stránce svého projevu věnuje. Tak např. ISLE (Interactive Spoken Language Education) speech corpus uvádí jako zdroj svých dat mj. čtení jednoduchých vět a minimálních párů; korpus ESCCL (English Speech Corpus of Chinese Learners) hlasité čtení dialogů; LeaP Corpus (Learning Prosody in a Foreign Language) čtení seznamu izolovaných slov a čtení krátkého příběhu (vedle převyprávění a volného mluveného projevu při rozhovoru), Learners Corpus of Reading Texts nepřipravené čtení anglických textů krátkých výtahů z krásné literatury nebo umělých dialogů. Data založená na čtených textech či izolovaných slovech jsou přirozeně v mluvených korpusech, zejména foneticky zaměřených, velmi užitečná, jejich označení jako 24 Even the most authentic data from non-native speakers is rarely as authentic as native speaker data, especially in the case of EFL learners, who learn English in the classroom. We all know that the foreign language teaching context usually involves some degree of artificiality and that learner data is therefore rarely fully natural. (Granger, 2002, s. 8) 25 S. Grangerová (Granger, 1998, s. xxi) např. uvádí, že výzkum opřený o žákovské korpusy uses the methods and tools of corpus linguistics to gain better insights into authentic learner language ; srov. i tamtéž, s. 4 5. 26 Srov. podmíněné vyjádření S. Grangerové (Granger, 2002, s. 16): In as far as essay writing is an authentic classroom activity, learner corpora of essay writing can be considered to be authentic written data, and similarly a text read aloud can be considered to be authentic spoken data. 18 Karel Šebesta Parametry žákovských korpusů a CzeSL 19

dat autentických je však zavádějící srov. též stanovisko F. Čermáka k zařazování např. rozhlasových pořadů do mluvených lingvistických korpusů (Čermák, 2011, s. 16). Obecně lze říci, že dnes budované a užívané žákovské korpusy jsou založeny v naprosté většině na datech klinicky elicitovaných s různou mírou řízenosti. Výjimkou jsou korpusy vytvořené z textů vzniklých např. jako kvalifikační práce, anotace výzkumného projektu, výzkumná zpráva apod. U takových korpusů se ovšem obtížně sledují všechny faktory, které mohly výslednou podobu textu ovlivnit, např. vliv vzoru, konzultace s rodilým mluvčím, revize textu korektorem apod.; je proto potřeba s nimi pracovat samostatně a formulovat závěry na jejich základě zdrženlivě. 2.3. Variabilita mezijazyka a zaznamenávané parametry Jedním z charakteristických znaků mezijazyka je jeho mimořádná variabilita, větší než variabilita jazyka prvního (Selinker, Gass, 2008, s. 259). Výzkum této variability se stal významnou součástí studia osvojování a užívání cílového jazyka přibližně od 70. let, tedy od změny paradigmatu v pohledu na osvojování druhého jazyka, signalizované formálně užíváním pojmu mezijazyk a s ním spojenými koncepty a spojené s poznáním, že žáci s různými prvními jazyky osvojující si týž druhý/cizí jazyk procházejí v zásadě týmiž vývojovými fázemi bez ohledu na podmínky jeho osvojování (Romaine, 2003, s. 409 410). To pak vedlo spolu s rozvojem variační sociolingvistiky 27 k podrobnému zkoumání variability v užívání druhého/cizího jazyka a faktorů, které ji ovlivňují, mj. i ve srovnání s variabilitou prvního jazyka dětí a mládeže z různých sociálně význačných prostředí, s vývojem jazyků kreolských, pidžinizací jazyka apod. Dnes patří proměnlivost žákovského mezijazyka a její možné příčiny mezi centrální témata výzkumu jeho osvojování a užívání nerodilými mluvčími. Současné koncepce variability užívání jazyka rozlišují několik jejích typů; podrobnou typologii jazykové variability lze nalézt např. u R. Ellise (2008, s. 129). Z hlediska žákovských korpusů a jejich vytěžování je účelné především odlišení tzv. variability volné a variability systematické. Oba typy se obvykle spojují s různými fázemi osvojování daného jazykového jevu (srov. např. Selinker, Gass, 2008, s. 277); volná variabilita se objevuje ve fázi druhé, kdy si žák osvojil např. dvě formy pro vyjádření dvou významů, ale používá je záměnně, aniž by bylo možné shledat v jejich užívání nějakou pravidelnost, ať už by byla dána čímkoli. O systematické variabilitě mluvíme tehdy, vykazuje-li užívání dvou různých forem více či méně zřetelnou 27 W. Labov a na něho navazující variační sociolingvistika přinesli do studia sociálně podmíněné stylistické variace jazyka žáků zásadní vklad, relevantní také pro žákovské korpusy. pravidelnost, podmíněnou nějakými vnějšími faktory; tento typ variability se vyvíjí později. Systematická variabilita přitom může záviset na faktorech povahy jazykové, psycholingvistické i sociolingvistické. Právě pro odlišení variability volné a systematické a pro studium různých jejích druhů je podstatné zaznamenávat v žákovských korpusech co nejširší okruh vnějších okolností, které žákovskou produkci doprovázely. Těchto okolností, faktorů, které užívání jazyka řídí a ovlivňují jeho variabilitu, je celá řada. Na prvním místě jsou to přirozeně okolnosti spojené s vlastním textem (psaný vs. mluvený, žánr, téma apod.), dále okolnosti spojené se situací jeho vzniku a sběru (longitudinální vs. průřezové záznamy, stupeň připravenosti, povaha přípravy, způsob zadání, možnost využít pomůcky, časové omezení, omezení rozsahu, sběrač apod.) a okolnosti spojené s mluvčím (jeho věk, úroveň znalosti cílového jazyka, první jazyk, další jazyky, které ovládá, způsob učení se cílovému jazyku apod.). Při plánování korpusu se tyto faktory berou v úvahu jako kritéria určující výběr materiálu a způsob jeho sběru, při jeho budování jsou jejich parametry zaznamenávány jako metadata, při práci s korpusem jsou to základní proměnné, o něž se může výzkum opřít, především výzkum zaměřený na studium variability mezijazyka, resp. užívání jazyka nerodilými mluvčími. Za ideálních podmínek by žákovské korpusy měly poskytovat dostatečná data pro studium všech typů variability jazyka žáků, resp. měly by výzkum této variability a její vazbu na jazykové, sociální a psychologické faktory usnadnit tím, že zahrnou různá textová data vytvořená pokud možno různými žáky za různých situačních podmínek a že tyto faktory budou bedlivě monitorovat a zaznamenávat. To se však daří naplnit jen zčásti. Je to dáno, jak jsme uvedli, značnou náročností získávání a zpracovávání jazykových dat a potřebou vytvořit soubory dostatečně velké. Nemalá část korpusů je proto v jednotlivých parametrech značně omezena a výběrový je rovněž repertoár zaznamenávaných metadat. U žákovských korpusů se např. nesetkáváme často s tím, že by zaznamenávaly vernakulární projevy nerodilých mluvčích, tedy projevy zcela neformální, v nichž je užití jazyka po formální stránce věnována minimální pozornost. V tom se žákovské korpusy do jisté míry liší od akvizičních korpusů jazyka prvního, které se na vernakulární jazyk žáků zaměřují, i když ani ony ne výlučně. Přes tato omezení však platí, že žákovské korpusy jsou vždy vybaveny podstatně větším rozsahem informací o textu, o podmínkách jeho vzniku a sběru a o jeho autorovi, než je obvyklé u lingvistických korpusů obecných. Relativní bohatství těchto metadat nejen odlišuje žákovské (resp. akviziční) korpusy od obecných lingvistických korpusů synchronních, ale je také důležitým měřítkem jejich hodnoty. Lze říci, že čím větší počet metadat o textech, podmínkách jejich vzniku a sběru a o jejich autorovi korpus obsahuje, tím větší možnosti využití badatelům v oboru i učitelům nabízí. 28 28 Je ovšem potřeba dodat, že dosavadní výzkum nevyužívá plně všech možností, které v tomto směru žákovské korpusy badatelům nabízejí, a soustřeďuje se převážně na sledování vlivu 20 Karel Šebesta Parametry žákovských korpusů a CzeSL 21