Svatava Škodová (TU v Liberci), Barbora Štindlová (TU v Liberci), Jirka Hana (MFF UK v Praze), Alexandr Rosen (FF UK v Praze)
|
|
- Renáta Dominika Černá
- před 8 lety
- Počet zobrazení:
Transkript
1 Víceúrovňová anotace českého žákovského korpusu Svatava Škodová (TU v Liberci), Barbora Štindlová (TU v Liberci), Jirka Hana (MFF UK v Praze), Alexandr Rosen (FF UK v Praze) Abstract: The paper describes a learner corpus of Czech, compiled from short essays written by students of Czech as a second or foreign language. We discuss the project s background assumptions, the process of text acquisition, transcription and mark-up, and finally focus on the annotation scheme, consisting of multiple interlinked levels to cope with a wide range of error types present in the input. Manual annotation is complemented by automatic error identification wherever possible and morphosyntactic tags for all word forms both in the emended and the original text. The annotation schema is tested on a doubly-annotated sample of approx. 10,000 words with fair inter-annotator agreement results. 1. Úvod Jedním z aktuálních témat současné korpusové lingvistiky je vytváření a anotování korpusů sestávajících z textů napsaných nerodilými mluvčími. Ve srovnání s národními korpusy, které většinou disponují morfosyntaktickým značkováním a lemmatizací, může anotace v těchto korpusech zachycovat nestandardní používání jazyka. V průběhu anotačního procesu jsou nestandardní formy jazyka postupně identifikovány, emendovány a opatřeny značkou specifikující typ dané chyby. Specifika češtiny coby jazyka s bohatou flexí a volným slovosledem kladou zvláštní nároky na vytvoření anotačního schématu, který by vyhovoval všem požadavkům na zachycení a popis jazykových chyb nerodilých mluvčích. 2. Žákovský korpus Žákovské korpusy jsou zásadním inovačním prvkem v oboru vyučování druhého, resp. cizího jazyka, 1 a to jak ve výzkumu, tak v samotné výuce. Jejich badatelský význam spočívá v tom, že poskytují širokému okruhu výzkumníků relativně velké soubory jazykových dat pro zkoumání tzv. žákovského mezijazyka, 2 jeho vývoje a faktorů, které tento vývoj potenciálně ovlivňují. Dovolují identifikovat pravidelnosti v mezijazyce a jejich vztah k různým potenciálním činitelům, které mezijazyk a jeho vývoj ovlivňují, jako je věk, první jazyk, relevantní okolnosti osvojování druhého jazyka, délka a povaha formální jazykové výuky apod. Žákovské korpusy umožnily 1 Terminologicky se obvykle rozlišuje pojem cizí jazyk (foreign language, FL) jako jazyk nabývaný v prostředí, kde se tímto jazykem nemluví (např. studium angličtiny v neanglicky mluvících zemích) a druhý jazyk (second language, L2) jako jazyk osvojovaný v přirozeném prostředí, tj. kde je tento jazyk oficiálním komunikačním prostředkem. Někdy se chápe termín druhý jazyk jako nadřazený a označuje se jím jakýkoli nemateřský jazyk, který se jedinec učí poté, co si osvojil jazyk mateřský. Pro potřeby tohoto textu mezi oběma termíny nerozlišujeme. 2 Mezijazyk, tj. interlanguage je termín používaný pro jazyk nerodilých mluvčích, který má výrazně individuální a dynamickou povahu. Někdy je zvažován jako specifická jazyková varieta (srov. Selinker 1972, Corder 1981). Je charakterizován permanentním vývojem směřujícím od využívání struktur mateřského jazyka žáka k využívání struktur jazyka cílového v souvislosti s rozvojem jazykových schopností jedince.
2 nově definovat a rekonstruovat oba základní typy analýz, které se při studiu osvojování druhého/cizího jazyka tradičně uplatňovaly: kontrastivní analýzu a analýzu chybovou. Kontrastivní analýza opřená o žákovský korpus se od analýzy tradiční odlišuje tím, že je zaměřena nikoli na studium výchozího a cílového jazyka, ale výše zmíněného mezijazyka, a sice na základě srovnání mezijazyka skupiny žáků s definovaným standardem jazyka cílového nebo na základě srovnání aktuálních stavů mezijazyků dvou různých skupin žáků. Zjišťují se přitom nejen odchylky ve smyslu nekorektního užití, ale i nadužívání nebo nedostatečného užívání ( podužívání ) jednotlivých jazykových prostředků a konstrukcí, ať už chybných či korektních. Počítačem podporovaná chybová analýza je často založena na specifickém typu chybové anotace textů. To s sebou nese systematičnost a explicitnost v míře tradičními metodami obtížně dosažitelné. Velkou výhodou je i to, že při využití korpusu analyzujeme chybná užití na pozadí užití korektních, můžeme si systematicky všímat funkčního využití nekorektních forem, sledovat prvky cizorodosti způsobující tzv. aspekt cizosti (foreign-soundingness) apod. Výsledky kontrastivních i chybových analýz opřených o korpus se už poměrně dlouho a hojně využívají při tvorbě jazykových slovníků a učebních materiálů, především v angličtině. Vedle toho jsou už také k dispozici tematicky různorodé korpusové studie o žákovském jazyce, pokrývající problematiku od jednotlivých lexikálních kategorií (modálních sloves, spojek, frázových sloves) přes lexikální chyby, jevy kolokační a morfologické až po lingvistickou pragmatiku. 3 Korpus ICLE International Corpus of Learner English CLC Cambridge Learner Corpus LINDSEI Louvain International Database of Spoken English PELCRA Polish Learner English Corpus USE Uppsala Student English Corpus HKUST Hong Kong University of Science and Rozsah (v mil. slov) První jazyk Cílový jazyk Úroveň znalosti Médium Chybová anotace 3,00 26 angličtina pokročilí psaný ano (1/4) 35, angličtina všechny úrovně psaný ano (částečně) 0,80 11 angličtina pokročilí mluvený ano (částečně) 0,50 polština angličtina všechny úrovně psaný 1,20 švédština angličtina pokročilí psaný ne ano (částečně) 25,00 čínština angličtina pokročilí psaný ano (200 tis. slov) 3 Srov. např. (Belz et al. 2005, Granger 1999, Oksefjell 1999, Leńko-Szymańska 2004, Rogatcheva 2009, Waibel 2008).
3 Technology Corpus of Learner English CHUNGDAHM Chungdahm English Learner Corpus JEFLL Japanese EFL Learner Corpus MELD Montclair Electronic Language Learners Database MICASE Michigan Corpus of Academic Spoken English NICT JLE NICT Japanese Learner English FALKO Fehlerannotiertes Lernerkorpus FRIDA French Interlanguage Database FLLOC French Learner Language Oral Corpora PiKUST Poskusni korpus usvajanja slovenščine kot tujega jezika 131,00 korejština angličtina všechny úrovně 0,70 japonština angličtina začátečníci psaný ano (6,6 mil. slov) psaný 1,00 16 angličtina pokročilí psaný ne 1,80 různé angličtina pokročilí mluvený ne 2,00 japonština angličtina všechny úrovně mluvený 0,30 5 němčina pokročilí psaný ano 0,20 různé francouzština 2,00 angličtina francouzština středně pokročilí všechny úrovně ano (částečně) ano (částečně) mluvený ano (2/3) mluvený 0,04 18 slovinština pokročilí psaný ano ASU ASU Corpus 0,50 různé norština pokročilí psaný ne TUFS TUFS Learners Corpus: Japanese 0,60 znaků různé japonština všechny úrovně psaný ne (v plánu) Tabulka 1: Některé dostupné žákovské korpusy (podle Štindlová 2011, 63n.) 3. CzeSL žákovský korpus češtiny Žákovský korpus češtiny nerodilých mluvčích 4 (viz též Hana et al. 2010, Štindlová 2011, Štindlová et al. 2011) je budován jako součást většího projektu, který zahrnuje tzv. akviziční korpusy češtiny. Projekt pod jménem AKCES vznikl v roce 2005 na FF UK (Šebesta 2010, Šebesta 2011). CzeSL je plánován v rozsahu cca 2 miliony slov, a bude tak patřit k největším neanglickým žákovským korpusům. Důležitým ne 4 Za mnoho podnětů a cenných připomínek děkujeme dalším členům řešitelského týmu, zvláště Vladimíru Petkevičovi, Haně Skoumalové, Tomáši Jelínkovi a Mileně Hnátkové. Karlu Šebestovi pak kromě toho všeho i za iniciování a vedení projektu. Projekt (CZ.1.07/2.2.00/ ) se realizuje v rámci Operačního programu Vzdělávání pro konkurenceschopnost a je financován ze zdrojů Strukturálních fondů EU (ESF) a státního rozpočtu České republiky. Příjemcem dotace je Technická univerzita v Liberci, na řešení se jako partneři podílejí Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka.
4 kompozičním principem korpusu je sběr dat od čtyř skupin mluvčích s ohledem na jejich první jazyky: Mluvčí slovanských jazyků. Převažují data od mluvčích disponujících jako prvním jazykem ruštinou nebo jiným východoslovanským jazykem; rozsáhlejší zastoupení budou mít data od polsky mluvících; další slovanské jazyky jsou zastoupeny jen okrajově. Mluvčí neslovanských indoevropských jazyků. V této skupině není dominance jednoho jazyka tak výrazná, mírnou převahu mají texty od mluvčích s prvním jazykem němčinou. Mluvčí neindoevropských jazyků. Předpokládáme větší zastoupení Vietnamců a Egypťanů, jinak je složení poměrně velmi různorodé. Romští žáci. Tato skupina má odlišnou povahu, u mluvčích nelze vždy jednoznačně rozhodnout, zda je čeština jejich jazykem prvním, nebo druhým. Sociokulturní odlišnosti mezi českou neromskou komunitou a některými komunitami romskými jsou však takového druhu, že lze u jazykového vývoje romských dětí očekávat některé rysy připomínající osvojování češtiny jako druhého jazyka. Romský subkorpus je budován v některých bodech odlišně a jsou u něj zaznamenávány i zčásti odlišné parametry. V dalších parametrech relevantních pro využití žákovských korpusů usiluje CzeSL o maximálně možnou úplnost: Je založen na sběru psaných i mluvených projevů žáků, i když data písemného charakteru výrazně převažují. Psané texty se sbírají převážně v rukopisné podobě a přepisují se podle podrobně stanovených pravidel (Štindlová 2011, 106n.), která zajišťují, aby bylo z původního textu zachováno maximum informací (včetně např. rektifikačních zásahů studenta apod.) Výjimku představují kvalifikační práce, které se sbírají v podobě elektronické. Pokrývá všechny úrovně znalosti jazyka podle SERR. 5 V tom se odlišuje od většiny světových žákovských korpusů, které obvykle zachycují pouze jazyk žáků jedné či dvou úrovní znalosti, zpravidla pokročilých a středně pokročilých. V tomto parametru CzeSL neusiluje o vyváženost. Podmínkami sběru je dána převaha dat pocházejících od studentů úrovně B. 6 Úrovně nižší jsou zastoupeny méně. Žánrově a tematicky shromažďuje CzeSL texty různorodé. Ve světových korpusech dochází podle způsobu sběru dat k omezení textů např. na argumentativní a úvahové eseje. Hlavní součástí korpusu CzeSL jsou eseje psané jako součást zkoušky (bez specifického omezení), podobně jako je tomu u většiny světových korpusů. Ale navíc obsahuje i kvalifikační práce, zvláště bakalářské, magisterské a doktorské. Protože jde o práce kvalitativně jiné než ručně psané eseje a také podmínky sběru jsou u nich poněkud odlišné, budou 5 SERR, tj. Společný evropský referenční rámec pro učení se a vyučování jazykům a pro hodnocení v jazycích; resp. CEFRL, tj. Common European Framework of Reference for Languages: Learning, Teaching, Assessment. Viz např. 6 Úroveň B podle SERR odpovídá úrovni samostatného uživatele jazyka (tj. středně pokročilému mluvčímu). Tato úroveň znalosti cizího jazyka je v kontextu SERR rozdělena na nižší a vyšší: B1 (intermediate), B2 (upper intermediate).
5 tvořit samostatný subkorpus a bude potřeba na jejich odlišnost pamatovat při analýze. Všechny texty jsou vybaveny podrobnými metadaty ohledně mluvčích a textů, zvláště o podmínkách jejich vzniku a sběru. Ve srovnání s běžnými korpusy synchronními je u žákovských korpusů externí anotace velmi detailní, což usnadní jejich následné využití k relevantním jazykovým analýzám. U autorů se zaznamenává: 4. Anotace věk první jazyk znalost dalších jazyků délka pobytu v České republice úroveň znalosti češtiny doba a způsob osvojování češtiny (jak intenzivně, s využitím jakých učebnic) další kontakty s češtinou (např. bilingvní rodinné prostředí) U textů se eviduje: téma, žánr a rozsah podmínky jejich vzniku, tj. míra řízenosti jejich tvorby učitelem (téma ne/zadáno, žánr ne/zadán, velikost ne/zadána, čas ne/zadán) velikost a povaha opory (ne/možnost využít slovníku, event. přípravné aktivity při zadání apod.) okolnosti sběru (psáno pro korpus, jako součást zkoušky apod.) S uvedenými parametry lze pracovat při vyhledávání v korpusu. Hodnota žákovského korpusu a akvizičního korpusu obecně s počtem zaznamenaných metadat roste. V celkovém kontextu osvojování druhého/cizího jazyka se žákovský jazyk považuje jako samostatný systém a měl by se analyzovat jako celek, tj. včetně chyb, které jsou akceptovány jako důležitá součást žákovského jazyka. Data nerodilých mluvčích se v žákovských korpusech mohou anotovat dvěma na sobě nezávislými způsoby: 1. Lingvistické značkování (tj. slovnědruhová, morfologická, příp. syntaktická anotace, lemmatizace ap.). Ve světových žákovských korpusech se nejčastěji uplatňuje značkování slovních druhů, obvykle je však aplikováno jen na menší části korpusů. Pro tento typ anotace se využívají softwarové nástroje původně vyvinuté pro potřeby analýzy národního jazyka, srov. např. van Rooy a Schäfer (2003). 2. Chybová anotace, viz např. (Díaz-Negrillo a Fernández-Domínguez 2006). Navzdory skutečnosti, že chybovou anotaci je třeba z velké části provádět manuálně, a je tudíž značně časově náročná, počet žákovských korpusů vybavených touto anotací v současné době neustále roste. Úroveň, rozsah a
6 koncept chybové anotace se však ve značkovaných žákovských korpusech značně odlišují. Jako chybově anotované se vymezuje přibližně 45 % světových žákovských korpusů, ovšem jen 7 % se pokouší o komplexně pojatou chybovou anotaci se systémovou taxonomií chyb. Zbývajících 38 % žákovských korpusů uplatňuje chybové značkování vázané na explicitně vymezenou výzkumnou hypotézu, např. žákovský korpus ISLE značkuje pouze nedostatky výslovnostní, žákovský korpus CEDEL2 se zaměřuje na zachycení problémů syntaktických ap., srov. (Štindlová 2011, 74). Chyby v žákovských projevech je možné zachycovat dvěma základními způsoby: implicitním a explicitním. Viz níže a (Štindlová 2011, 79n.) Implicitní zachycení chyb rekonstrukce V rámci rekonstrukčního přístupu je v průběhu emendace 7 chyba v textu detekována a nahrazena korektní formou. Tento typ korekce je pojímán jako implicitní specifikace chyby. Výhodou rekonstrukčního přístupu je primárně absence klasifikačního schématu (Fitzpatrick a Seegmiller 2004): anotátor se jej nemusí učit, tj. tento typ anotování je rychlejší, nedochází k chybnému zařazení chyby. Vlastní rekonstrukce textu bez kategorizace chyb může být následně pro uživatele neprůhledná, protože nepopisuje chybu a neobjasňuje důvody pro volbu použité opravy. Zároveň také v případě, že rekonstrukční korpus není morfologicky značkován, neumožňuje přístup bez chybové typologie snadnou aplikaci kvantifikačních a statistických metod Explicitní zachycení chyb chybová klasifikace Pro tento typ klasifikace je již před samotnou emendací explicitně vymezen výčet možných chyb; v průběhu emendace jsou nalezené žákovské chyby identifikovány a následně kategorizovány podle předem vymezené chybové typologie. Chybová taxonomie, na jejímž základě dochází ke kategorizaci chyb, vždy určitým způsobem odráží teoretický koncept, v jehož rámci vznikla, a chybové kategorie, které zahrnuje, mohou reflektovat úzce zaměřený výzkumný záměr. Problémem je pak nižší využitelnost pro analýzy s odlišnými badatelskými cíli. I přesto tento koncept při značkování žákovských korpusů přináší cenné informace a nabízí široké možnosti statistických analýz. Chybově značkované korpusy používají následující taxonomie: i. Lingvisticky zaměřené taxonomie, které se liší podrobností klasifikace, tj. od označení kategorií velmi široce pojatých (morfologie, lexikum, syntax) ke kategoriím pojatým specifickým způsobem (pomocná slovesa, pasivum, apod.). ii. Variantou, resp. rozšiřující možností taxonomie i. jsou taxonomie hierarchické založené na kombinaci různých aspektů v náhledu na chybu. Mohou označovat tzv. chybovou doménu (např. gramatickou, lexikální, stylovou), chybovou kategorii (např. aglutinace, diakritika, derivační flexe, rod, modus, atp.), slovní druh (POS). 7 Termín emendace používáme pro přímou opravu daného chybného výrazu.
7 iii. Taxonomie založené na formálních typech alternace zdrojového textu; tyto taxonomie zachycují: chybějící element, přebývající element, chybně utvořený element, chybné uspořádání. V anotovaných korpusech jazyka nerodilých mluvčích je tento typ klasifikace chyb často užíván jako komplementární k lingvisticky orientované kategorizaci. 5. Anotační schéma 5.1. Anotační schéma jako kompromis Chybová anotace žákovského korpusu CzeSL by měla umožnit podrobné statistické zpracování jazykových dat. Vytvoření anotačního schématu a efektivní chybové taxonomie je však z důvodu flektivní povahy češtiny a jejího tzv. volného slovosledu náročným úkolem. Anotační schéma navíc musí respektovat následující požadavky: schéma musí být zvladatelné pro anotátory; taxonomie nemůže být příliš rozsáhlá, ale zároveň musí být dostatečně informativní, tj. musí umožňovat dostatečně podrobné zachycení chyb; taxonomie by měla umožňovat budoucí rozšiřování. Dále jsme se při tvorbě anotačního schématu museli vyrovnat s následujícími problémy specifickými pro zachycení žákovského jazyka: Interference Protože anotátoři nejsou experty v oblasti osvojování a učení L2, je třeba počítat s tím, že nemohou rozpoznat interference mezi jazyky, kterými disponují žáci, jejichž texty anotují. Z toho důvodu není možné od anotátorů požadovat, aby zachycovali interferenční chyby. Např. věta Tokio je pěkný hrad je gramaticky správná, ale její autor, rodilý mluvčí ruštiny, zde chybně užil slovo hrad, které v porovnání ruština čeština patří mezi tzv. false friends, jako ekvivalent k ruskému gorod (tj. město) Interpretace Pro některé typy chyb je obtížné stanovit meze interpretace. Věta kdyby citila na tebe zlobna je gramaticky chybná, avšak je alespoň zhruba srozumitelná ve smyslu kdyby se na tebe zlobila. V takových případech je úkolem anotátora spíše interpretace textu nežli jeho oprava. Daná věta může být nahrazena interpretací kdyby se na tebe cítila rozzlobená nebo kdyby se na tebe zlobila, přičemž první věta není zcela přirozená, avšak více se blíží originálu. V takových případech je nesnadné poskytnout anotátorům jednoznačné pokyny, jak postupovat Slovosled Jiným typem chyb specifickým pro češtinu jsou nedostatky slovosledné. Např. ve větě Rádio je taky na skříni slovosled implikuje informaci, že v místnosti jsou alespoň dvě rádia, z nichž jedno je umístěno na skříni. Pravděpodobnější interpretace však je, že rádio je jednou z několika věcí umístěných na skříni. Tato druhá interpretace by pak vyžadovala slovoslednou úpravu: Na skříni je taky rádio.
8 Styl Dichotomie spisovné a obecné češtiny představuje pro anotátory další problematickou oblast, především v případě obecněčeských morfologických zakončení. Žáci, tj. autoři textů, si nemusí být vědomi statutu těchto forem a adekvátního komunikačního kontextu, ve kterém by mohly být užity. Přesto jsou v navrženém anotačním schématu tyto tvary vždy značkovány jako stylově příznakové. Výsledná chybová typologie je kompromisem mezi limity kladenými na anotační proces a badatelskými požadavky vztahujícími se na žákovský korpus. Korpus může být využíván k porovnávání variet žákovské češtiny, resp. verzí mezijazyka různých nerodilých mluvčích, s ohledem na vymezený standard cílového jazyka (tj. češtiny). Podobně zajímavé je i porovnávání žákovských jazyků na různých úrovních osvojení. V pedagogické oblasti vedly analýzy založené na žákovských korpusech k nové induktivní metodologii, tzv. data-driven learning, která je založena na využívání nástrojů a technik z korpusové lingvistiky v cizojazyčné výuce (např. využití konkordancí pro cvičení, příp. na podporu nezávislých učebních aktivit) Anotace na více rovinách O chybové anotaci nelze předem říci, jaká by měla být její ideální podoba. Do značné míry záleží na cílech a možnostech projektu, a také na typu jazyka. Jednoúrovňové anotační schéma by stačilo pro úzce definovaný účel, např. ke zkoumání morfologických zvláštností jazyka studentů. Mohlo by zachycovat i více aspektů, pokud by se příslušné údaje daly připojit k původním formám. Pro naše účely však s sebou jednoúrovňová anotace nese řadu problémů. Především je náš korpus z hlediska budoucího využití koncipován velmi široce, takže se nelze omezit na úzký okruh jazykových jevů nebo určitou rovinu popisu. Z toho plyne nutnost zaznamenávat postupné opravy a udržovat vazby mezi původní a opravenou formou i u změn ve slovosledu, změn v hranicích mezi slovy, případně i u vypuštěných a přidaných výrazů. Dalším důvodem je pak potřeba anotovat chyby, které se týkají více forem najednou, často v nekontaktním postavení. V ideálním případě by anotátor měl mít k dispozici právě tolik rovin, kolik je k provedení potenciálně postupné anotace třeba. To lze zajistit buď volbou z většího počtu lingvisticky motivovaných rovin, nebo možností vytvářet roviny anotace podle aktuální potřeby oprav dané formy. Vzhledem k tomu, že anotátor by neměl být příliš zatěžován teoretickými dilematy a že výsledná anotace by měla být jednotná, zdá se velký nebo flexibilní počet rovin pro naše účely jako málo vhodný. Proto jsme přijali kompromisní řešení anotátor má pro anotaci k dispozici dvě roviny. Rozhodnutí, na jaké rovině se daná forma opravuje, je dáno do značné míry formálními kritérii, ale rozdíly mezi oběma rovinami přitom mají lingvistické opodstatnění. Rovina 0 obsahuje původní text, přepsaný z rukopisu se zachováním některých rukopisných charakteristik (varianty, nečitelné řetězce). Na rovině 1 se opravují izolované formy bez ohledu na kontext typicky jde o překlepy a chyby v pravopisu a morfologii. Výsledkem je řetězec správných českých tvarů, i když věta z nich složená správně být nemusí. Všechny ostatní typy chyb (valence, shoda, slovosled, atd) se opravují na rovině Formalismus
9 Anotované žákovské korpusy někdy využívají datové formáty a nástroje vyvinuté původně pro anotování mluvené řeči. Takové prostředí dovoluje arbitrární segmentaci výstupu a několikaúrovňovou anotaci segmentů (Schmidt 2009). Obvykle anotátor edituje tabulku se sloupci korespondujícími se slovy a řádky podle úrovní anotace. Buňky lze rozdělovat a spojovat tak, aby bylo možné anotovat rozdělená slova nebo posloupnosti slov jako celek, např. při opravě chyb ve shodě nebo slovosledu (Lüdeling et al. 2005). Tabulkový formát však není příliš vhodný pro jazyky s volným slovosledem a bohatou flexí. Jedna forma totiž může být chybná z různých hledisek. V extrémních případech může být problematická typograficky, ortograficky, morfosyntakticky, lexikálně i slovosledně zároveň. Při slučování a rozdělování buněk tabulky však nelze zaručit, že zůstanou zachovány korespondence mezi postupně opravovanými formami. Proto jsme přistoupili k vlastnímu návrhu, kde se korespondence mezi postupně opravovanými formami vyjadřují explicitně. Naše anotační schéma má podobu grafu složeného ze tří vzájemně propojených paralelních rovin, které představují původní text studenta (R0) a dvě úrovně anotace (R1 a R2). Každému slovu ze vstupního textu včetně interpunkce obvykle odpovídá nějaký uzel na každé rovině. Běžně je vztah mezi uzly na sousedních rovinách 1:1, ale slova se mohou také spojovat a rozdělovat, vypouštět i přidávat. Ve vzájemném vztahu mohou být i potenciálně nespojité posloupnosti slov, takže obecně může být počet uzlů na sousedních rovinách spjatých jedním vztahem neomezený. Kromě tvaru mohou být u každého uzlu uvedeny další informace lemma, morfosyntaktické kategorie, syntaktická funkce apod. Pokud byla původní forma (případně více forem) opravena na jinou, mohou být vztahy mezi uzly na sousedních rovinách opatřeny údaji o typu chyby. Na obr. 1 je příklad víceúrovňové anotace podle tohoto schématu. Kromě vztahů mezi sousedními rovinami schéma také umožňuje vyjádřit jednoduché syntagmatické vztahy související s chybami určitého typu, např. u shody nebo rekce. Identifikátor chyby na spojnici mezi opravovaným a opraveným výrazem může odkazovat na jiný výraz, který správnou podobu určuje, např. případě chybného tvaru finitního slovesa na podmět nebo jiný tvar se stejnými kategoriemi shody (viz oprava jsme na jsem v obr. 1). Častým jevem jsou tzv. sekundární chyby, jako třeba v příkladu dívá se na americkém filmu. Adjektivum americkém se náležitě shoduje s řídícím substantivem, ale po opravě pádu předmětu na akuzativ je třeba změnit i pád shodného přívlastku. V takových příkladech se používá více odkazů: od předmětu ke slovesu jako zdůvodnění opravy pádu řídícího substantiva a od adjektiva k substantivu jako zdůvodnění opravy pádu shodného přívlastku. U přívlastku jde přitom o opravu, která je vynucena jinou opravou, tzv. opravu sekundární. Tento atribut je při značkování chyb zaznamenáván. Od počátku jsme si vědomi toho, že alespoň v netriviálních případech lze chybu identifikovat pouze na základě stanovení hypotetické cílové podoby chybného výrazu, přičemž někdy nemusí být nasnadě podoba jediná. Práce s více cílovými hypotézami zatím existuje jako teoretická možnost a bude aktuální v dalších fázích projektu Typy chyb Typický student češtiny jako cizího jazyka chybuje na všech lingvisticky motivovaných rovinách, od grafémiky až po pragmatiku. Navržené anotační schéma se z praktických důvodů omezuje na konzervativní emendaci, jejímž výsledkem je
10 souvislý a gramaticky správný text, ale bez nároků na stylistickou vytříbenost. Anotátor by také neměl text příliš volně interpretovat. Pokud text není dostatečně srozumitelný, mohou být příslušné pasáže takto označeny, ale mohou zůstat bez emendace. Východiskem pro taxonomii chyb jsou lingvistické kategorie ve spojení s formálním popisem chyby (typem modifikace). Ne všechny typy chyb je nutné určovat manuálně. Pokud je to možné, určujeme některé chyby automaticky porovnáním původní a opravené podoby tvaru a/nebo na základě výsledků automatické lemmatizace a morfologické analýzy (viz oddíl 5.3). Emendace zatím probíhá jen ručně, i když se zkoumá možnost využití automatického korektoru Chyby na rovině 1 Na rovině 1, kde se opravují chyby zjistitelné bez ohledu na kontext, se kromě chyb v pravopisu a hranicích slov řeší také chyby ve flektivní a derivační morfologii i chybné slovní základy, např. nově vytvořená nebo cizí slova. Tyto nedostatky se s výjimkou chyb pravopisných určují manuálně. Výsledkem opravy je nejpodobnější správný tvar, který může být dále na rovině 2 podle kontextu opraven na jiný důvodem je například porušení morfosyntaktické shody nebo sémantická nekompatibilita lexému. Seznam chyb anotovaných manuálně na rovině 1 s příklady uvádí tabulka 2. Poslední tři chyby (stylcoll, stylother a problem) se používají i na rovině 2. typ chyby popis příklad incorinfl nesprávná flexe spám málo; tři měsícu incorbase nesprávný slovní základ kočka se jmemuje; libila se mi; musíš to posvětlit fwfab neemendovatelné, vymyšlené slovo je tam hodně jinaků fwnc cizí slovo jím rád eggs; byla v hangu flex doplňující příznak u chyb fwfab a fwnc jdu do shopa značící přítomnost flexe wbdpre prefix oddělený mezerou a předložka bez Petr při jde; dolesa mezery wbdcomp neoprávněně rozdělená kompozita český anglický slovník wbdother jiná chyba týkající se hranice slova mochezký; atak stylcoll obecněčeský tvar dobrej film stylother knižní, nářeční, slangový, hyperkorektní holka s hnědými očimi výraz problem problémová chyba (doplňkový příznak) Tabulka 2: Chyby na rovině 1 Pravidlo, že na rovině 1 musí být všechny tvary správné, neplatí bez výjimky chybu nelze opravit třeba proto, že anotátor nedokáže rozpoznat intenci autora. Na druhé straně se správný tvar nahrazuje jiným správným tvarem v případech, kdy jde evidentně o pravopisnou nebo hláskovou chybu, jejímž výsledkem bylo náhodné homonymum s existujícím tvarem Chyby na rovině 2 Opravy na rovině 2 se týkají chyb ve shodě, valenci, analytických tvarech, zájmenném odkazování, záporové shodě, v užití vidu, času, stupně, lexému a idiomu, a také ve slovosledu. U chyb ve shodě, valenci, analytických tvarech, zájmenném
11 odkazování a záporové shodě lze obvykle při opravě chybného výrazu odkázat na jiný správně utvořený nebo již opravený výraz, který určuje morfologické kategorie nebo jiné vlastnosti výrazu opravovaného. Typy manuálně určovaných chyb na rovině 2 uvádí tabulka 3. (Mezi automaticky identifikované chyby patří např. chyby slovosledu nebo podrobnější členění chyby typu vbx.) typ chyby popis příklad agr narušení shody máme hezkých psa; Petr vařím oběd dep chyba ve vyjádření syntaktické závislosti věřím učitelku; káva bez mléko; bojím se jí zavolám ref chyba v zájmenném odkazu paní, jenž jsem potkal vbx chyba v analytickém slovesném tvaru a složeném přísudku Jana bude dělá; guláš bylo chutná mi; začal pracuje rflx chyba v reflexivním výrazu smála si; narodila jsem v Petrohradu neg chyba v negaci mám žádný čas; on ne velký lex chyba v lexiku a frazeologii jsem Vietnam; kupuju housenky use chyba v užití gramatické kategorie tričko je nejvíc nejhezčí; celé dopoledne uvařím oběd; do polévky dáme čočky sec sekundární, zavlečená chyba dívá se na americkém filmu (doplňkový příznak) stylcoll obecněčeský tvar viděli jsme hezký holky stylother knižní, nářeční, slangový výraz rozbil se mi hadr stylmark výplňkové slovo jako diskurzní marker no, teda, jo disr rozvrácená konstrukce zkušební důvtip může tě řídit problem problémová chyba (doplňkový příznak) Tabulka 3: Chyby na rovině Příklad Anotační schéma použité na autentickém příkladu uvádíme na obr. 1, z prostorových důvodů je příklad rozdělen na tři části. Tři paralelní řetězce forem představují původní text a dvě roviny anotace. Jednotlivé tvary jsou spojeny hranami a většina oprav se zároveň označuje kódem typu opravy. V první části věty se na R1 tvar bojal opravil na bál s údajem, že má chybný slovní základ. Na R2 se jako chyba shody opravil tvar jsme na jsem s odkazem na nejbližší tvar, který je z hlediska morfologických kategorií důležitých pro shodu správně (bojal). Chybějící reflexivní částice se vložila s odkazem na významové sloveso. Čárka přibyla bez údaje o chybě, který se doplní automaticky. Ve druhé části věty anotátor chybně oddělenou záporovou předponu spojil se slovesem bude a opravil délku v základu tvaru libila. Kromě toho opravil i malé začáteční písmeno u vlastního jména Praha (bez identifikace chyby, která se doplní automaticky). Na R2 bylo nutné opravit pád zájmena ona s odkazem na řídící sloveso, které se z finitního tvaru líbila změnilo na infinitiv, neboť je součástí opisného futura proto anotátor odkazuje na finitní tvar pomocného slovesa nebude. Také pád u vlastního jména Praha bylo nutné opravit, opět s odkazem na řídící významové sloveso. Tím pádem je dotčeno i původně korektní adjektivum slavnou kód pro chybu shody je zde doplněn údajem, že jde o sekundární chybu. Slovoslednou úpravu postavení příklonky se není třeba označovat kódem chyby to se provede automaticky. Máme-li na výběr z více možností přesunu, které všechny vedou ke stejnému výsledku, přesouváme přednostně závislé větné členy.
12 Obr. 1: Příklad anotace jedné věty Poslední úsek věty vyžadoval na R1 jen jednu opravu (opět délka ve slovním základu). Zato bylo na R2 nutné kromě spojky (lexikální oprava) změnit celý analytický slovesný tvar, což je příklad opravy typu 2:2. S odkazem na řídící sloveso pak i předložkový pád zájmena na pád prostý (mi) a výsledek nakonec umístit na patřičné místo. Oprava výrazu pro mně na tvar mi však opomíjí chybu v pádu zájmena po předložce. Aby anotátor takovou chybu mohl opravit a označit, potřeboval by další rovinu, na níž by mohl opravit mně na mě s odkazem na předložku, která pád určuje. Opravou už na R1 by anotátor porušil pravidlo, že na R1 se opravují jen tvary chybné i bez kontextu. Tento problém chápeme jako kompromisní řešení, které vyvažuje jednodušší schéma. 6. Postup anotace Celá anotace probíhá v těchto krocích:
13 1. Rukou psaný text se pomocí běžného textového editoru přepíše do elektronické podoby ve formátu HTML rozšířeného o kódy zachycující studentovy opravy, předtištěný text, text v jiných abecedách atd. 2. Přepsaný text v elektronické podobě se zkonvertuje do formátu pro anotaci, v němž je automaticky určena rovina 0 a výchozí podoba roviny 1. Obě jsou zakódované ve formátu PML (Pajas a Štěpánek 2006; konkretizace XML pro účely strukturní lingvistické anotace). 3. Anotátor opraví chyby v dokumentu a určí jejich typ pomocí anotačního editoru feat. 4. Klasifikace chyb, které lze z ruční anotace odvodit automaticky, se přidá v dalším kroku. Obr. 2: Příklad věty v anotačním editoru feat 6.1. Přepis původního textu Vzhledem k tomu, že původní texty většinou píší studenti a žáci ve třídě při jazykových kursech nebo při zkouškách, je nutné pracovat s rukopisy. 8 Dalším důvodem je obava, že elektronické texty lze snadno korigovat nebo i vytvářet automatickými nástroji, což by podobu autentického mezijazyka výrazně zkreslilo. I když se snažíme o maximální věrnost, někdy se při přepisu rukopisných textů neobejdeme bez jisté míry interpretace. Přepisovači si musí uvědomovat specifika rukopisu dané skupiny studentů a někdy i jednotlivců (například stejný glyf je možné interpretovat v písmu různých studentů jako písmeno l, e, nebo a). Pokud je 8 Přepisy mluvených textů budou do korpusu zařazeny v dalších fázích projektu.
14 možné znak nebo i celý úsek textu interpretovat různě, přepisovač může uvést více variant. Tak například velikost počátečních písmen nebo hranice slov jsou často nejasné. Zvlášť se označují zcela nečitelné úseky i opravy, které provádějí sami studenti (vsuvky, škrty) a které mohou být pro výzkum akvizice jazyka také užitečné. Podrobné pokyny jsou uvedeny v přepisovacím manuálu Anotace Ruční část anotace probíhá v prostředí anotačního editoru feat ( který byl vyvinut v rámci projektu. Anotátor opraví text na příslušných rovinách, upraví vztahy mezi výrazy, které si na jednotlivých rovinách vzájemně odpovídají (implicitně jsou všechny vztahy typu 1:1) a u chyb určitého typu přidá příslušnou chybovou značku. Anotovaný text je možné zobrazit v přepsané podobě i jako snímek originálu. Anotační editor je vytvořen v jazyce Java s využitím platformy Netbeans ( Na obr. 2 je ukázka anotace věty z výše uvedeného příkladu v prostředí anotačního editoru Evaluace Použitelnost anotačního schématu a taxonomie chyb byla ověřena pomocí míry shody mezi anotátory na vzorku 67 textů v průměru po 150 slovech, celkem 9373 slov (7995 slov bez interpunkce). Autory textů byli rodilí mluvčí různých jazyků. Každý text anotovali dva anotátoři, celkem bylo anotátorů 14. Jako míra shody mezi anotátory byl použit koeficient kappa (Carletta 1996), který kromě shody nebo neshody mezi dvěma anotátory při volbě dané značky bere v úvahu i pravděpodobnost náhodné shody. Blíže o evaluaci viz (Štindlová 2011, 121n., Štindlová et al. 2011). Na škále mezi dokonalou shodou (kappa=1) a shodou náhodnou (kappa=0) dosáhly hodnoty kappa velmi uspokojivých hodnot např. u značek incorbase (0,75) a incorinfl (0,61), z roviny 2 pak u značek agr (0,54) a dep (0,47). Obecně se ve srovnatelných případech považují hodnoty nad 0,4 za přijatelné. Část chybových značek jako např. lex a use však skončila pod tímto limitem (0,37 a 0,21). Zlepšení (a to i u úspěšnějších typů chyb) může nastat po precizaci instrukcí v anotačním manuálu, ale některé značky budou i nadále do značné míry závislé na subjektivním dojmu anotátora a vysokou míru shodu mezi anotátory u nich nelze očekávat Následné zpracování Po manuální anotaci následuje anotace automatická. Při ní se k textům přidávají údaje, které lze algoritmicky odvodit z originálu, provedené emendace a manuální chybové anotace. Jde o tyto údaje: 1. Rovina 1: lemma, slovní druh a morfologické kategorie pro jednotlivé tvary (tyto údaje mohou být víceznačné) 2. Rovina 2: lemma, slovní druh a morfologické kategorie pro jednotlivé tvary (jednoznačně určené) 3. Rovina 1: typ chyby (porovnáním původních a opravených řetězců) kromě lexikálních chyb, při jejichž opravě je nutné měnit lemma (např. kadeřnička) 4. Rovina 2: morfosyntaktické chyby způsobené narušenou shodou nebo rekcí (porovnáním morfosyntaktických značek na rovině 1 a 2)
15 5. Formální popis chyby na obou rovinách: typ pravopisné nebo hláskové změny, přidání/vypuštění výrazu, slovosledná chyba V budoucnu chceme automaticky označovat chyby ve slovesných předponách, flektivních koncovkách, pravopisu, palatalizaci a chyby metateze. 7. Závěr Chybová anotace je velmi náročný úkol, ale plody takového úsilí mohou být velmi užitečné. Uživatel korpusu s chybovou anotací má přístup ke statistickým údajům o typech chyb, které nelze získat jiným způsobem a které podávají věrný obraz mezijazyka studentů. To umožňuje modifikovat pedagogické metody a materiály používané při výuce tak, aby řešily nejčastější slabiny v jazykových dovednostech studentů s ohledem na jejich úroveň znalostí a mateřštinu. Anotace přináší řadu podnětů, které se promítají do anotačního manuálu a školicích setkání. Důležitým nástrojem pro zdokonalování popisu chybové taxonomie i vlastního anotačního schématu je také internetové fórum, které slouží k řešení aktuálních problémů anotátorů. Reakce anotátorů již umožnily alespoň částečně zpřesnit pokyny k rozhodování v některých obtížnějších případech, např. při nejistotě o intenci autora, inferenčních chybách, o optimální míře intervence do původního textu, o způsobu anotace nestandardních variet jazyka. Ve všech těchto případech je třeba skloubit požadavky potenciálních uživatelů korpusu s imperativem konzistentní anotace. Při anotaci se nabízí využití automatických postupů už na chybový text jako předzpracování textu pro usnadnění úkolu anotátorů, nebo pro plně automatickou anotaci většího objemu textů, kterou z kapacitních důvodů nelze zajistit spolehlivější manuální cestou. Některé pilotní studie v tomto směru už existují. Mezi kandidáty patří automatická morfologická analýza, disambiguace a lemmatizace s využitím více vzájemně odlišných metod, které u chybných tvarů vedou k různým výsledkům. Porovnání těchto výsledků by mohlo vést k automatickému stanovení hypotézy o typu chyby (Díaz-Negrillo et al., 2010). Další možností je využití automatického korektoru k emendaci. Pro chybový i opravený text pak lze uvažovat o automatické syntaktické analýze, která by mohla využívat i některé syntakticky orientované aspekty chybové anotace, jako např. odkazy u chyb shody a rekce. Literatura Belz J., N. Vyatkina, 2005, Learner Corpus Analysis and the Development of L2 Pragmatic Competence in Networked Intercultural Language Study: The Case of German Modal Particles. Canadian Modern Language Review, 62, č. 1, Carletta J. C., 1996, Assessing agreement on classification tasks: the kappa statistics. Computational Linguistics, 22, č. 2, Corder, S. P., 1981, Error Analysis and Interlanguage. Oxford University Press, Oxford. Díaz-Negrillo A., J. Fernández-Domínguez, 2006, Error Tagging Systems for Learner Corpora. Resla, č. 19,
16 Díaz-Negrillo A., D. Meurers, S. Valera, H. Wunsch, 2010, Towards interlanguage POS annotation for effective learner corpora in SLA and FLT. Language Forum, 36, č. 1 2, Special Issue on Corpus Linguistics for Teaching and Learning. In Honour of John Sinclair. Fitzpatrick E., M. S. Seegmiller, 2004, The Montclair electronic language database project. In Applied Corpus Linguistics: A Multidimensional Perspective, eds U. Connor, T. A. Upton. Rodopi, Hana J., A. Rosen, S. Škodová, B. Štindlová, 2010, Error-tagged learner corpus of Czech. In Proceedings of the Fourth Linguistic Annotation Workshop, Uppsala. Association for Computational Linguistics. Leńko-Szymańska A., 2004, Demonstratives as anaphora markers in advanced learners English. In Corpora and Language Learners, eds. G. Aston, S. Bernardini, D. Stewart. Benjamins, Amsterdam, Lüdeling A., M. Walter, E. Kroymann, P. Adolphs, 2005, Multi-level error annotation in learner corpora. In Proceedings of Corpus Linguistics 2005, Birmingham. Pajas P., J. Štěpánek, 2006, XML-Based Representation of Multi-Layered Annotation in the PDT 2.0. In Proceedings of LREC 2006 Workshop on Merging and Layering Linguistic Information. ELRA, Genoa, Italy. Rogatcheva S., 2009, I ve only found the answer a few days ago : aspect use in Bulgarian and German EFL writing. In New Trends and Methodologies in Applied English Language Research. Diachronic, Diatopic and Contrastive Studies, eds C. Prado-Alonso, L. Gómez-García, I. Pastor-Gómez, D. Tizón-Couto. Peter Lang, Frankfurt, Selinker L., 1972, Interlanguage. IRAL, 10, č. 3, Schmidt T., 2009, Creating and working with spoken language corpora in EXMARaLDA. In LULCL II: Lesser Used Languages & Computer Linguistics II, Šebesta K., 2010, Korpusy češtiny a osvojování jazyka. Studie z aplikované lingvistiky/studies in Applied Linguistics. Sv. 1, č. 2, Šebesta K., 2011, Akviziční korpusy. In Minulost, přítomnost a budoucnost v jazyce a v literatuře. Ústí nad Labem PF UJEP, Ústí nad Labem. Štindlová B., 2011, Evaluace chybové anotace v žákovském korpusu češtiny. Disertační práce, Filosofická fakulta University Karlovy v Praze. Štindlová B., S. Škodová, J. Hana, A. Rosen, 2011, CzeSL an error tagged corpus of Czech as a second language. PALC 2011 Practical Applications in Language and Computers, Lodž dubna Výběr z příspěvků vyjde v nakladatelství Peter Lang v edici Łódź Studies in Language.
17 Van Rooy B., L. Schäfer, 2003, An evaluation of three POS taggers for the tagging of the Tswana Learner English Corpus. In Proceedings of the Corpus Linguistics 2003 Conference Lancaster University (UK), March 2003, eds D. Archer, R. Rayson, A. Wilson, T. McEnery, UCREL, Lancaster University, Lancaster, Waibel B., 2008, Phrasal verbs. German and Italian learners of English compared, VDM, Saarbrücken.
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady
Čeština doma & ve světě. [nová]
Čeština doma & ve světě [nová] 1 2014 Nová čeština doma a ve světě Filozofická fakulta Univerzity Karlovy v Praze 1/2014 Redakce: Vedoucí redaktorka Mgr. Kateřina Romaševská Výkonná redaktorka Mgr. Katarzyna
Anotace žákovského korpusu. Alena Poncarová Žďárek, Listopad 2011
Anotace žákovského korpusu Alena Poncarová Žďárek, Listopad 2011 Obsah příspěvku Žákovský korpus CzeSL Akviziční korpusy Anotace korpusu CzeSL přepisy anotace Evaluace 2 Žákovský korpus CzeSL projekt AKCES
Karel Kučera 98 STUDIE Z APLIKOVANÉ LINGVISTIKY 1/2013
98 STUDIE Z APLIKOVANÉ LINGVISTIKY 1/2013 První česká monografie o žákovských korpusech Karel Kučera ŠEBESTA, Karel ŠKODOVÁ, Svatava et al. (2012): Čeština cílový jazyk a korpusy. Liberec: Technická univerzita
Popis vzdělávacího programu nabízeného v současné době v podobě rozšiřujícího tříletého (6 semestrů) studia; akreditovaný program MŠMT
Popis vzdělávacího programu nabízeného v současné době v podobě rozšiřujícího tříletého (6 semestrů) studia; akreditovaný program MŠMT Pořadové číslo: 1. Název vzdělávacího programu: Čeština jako jazyk
Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti
Prima jednoduše mluví o sobě Slovní zásoba: elementární slovní 1 B/ 26, 27, 29, 30 tvoří jednoduché otázky a aktivně je používá zásoba pro zvolené tematické okruhy odpovídá na jednoduché otázky obsahující
Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová
Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová Aplikovaná lingvistika Příručka pro studenty Bc. studia ČJL KAROLINUM Aplikovaná lingvistika Příručka pro studenty Bc. studia ČJL Karel
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.
Korpusová lingvistika a počítačová Od 60. let 20. st. Raná korpusová lingvistika (konec 19. st 50. léta 20. st., Early corpus linguistics) strukturalistická tradice, americký deskriptivismus, metody založené
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
Specializované korpusy mluveného jazyka - jejich tvorba a využití
Specializované korpusy mluveného jazyka - jejich tvorba a využití Karolína Vyskočilová 34. Žďárek, Poděbrady, 2. 4. května 2014 vyskoczilova@seznam.cz Obsah příspěvku korpusy čeština v zahraničí BANÁT
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105
Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl
Podoba a využití korpusu jinojazyčných a romských mluvčích češtiny: CZESL a ROMi Zuzanna Bedřichová Karel Šebesta Kateřina Šormová Svatava Škodová
Podoba a využití korpusu jinojazyčných a romských mluvčích češtiny: CZESL a ROMi Zuzanna Bedřichová Karel Šebesta Kateřina Šormová Svatava Škodová 1.1 Akviziční korpusy Důležitost elektronických korpusů
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
Žák porovnává významy slov, zvláště slova podobného nebo stejného významu a slova vícevýznamová O jazyce Opakování učiva 3. ročníku Národní jazyk Naše vlast a národní jazyk Nauka o slově Slova a pojmy,
Ontologie. Otakar Trunda
Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
září Žák porovnává významy slov, zvláště slova podobného nebo stejného významu a slova vícevýznamová. Žák dokáže rozlišit mluvnické kategorie podstatných jmen (pád, číslo, rod), rozliší větu jednoduchou
Vzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 4. ročník Zpracovala: Mgr. Helena Ryčlová Komunikační a slohová výchova čte s porozuměním přiměřeně náročné texty potichu i nahlas čte s porozuměním
ve strojovém překladu
Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém
Francouzský jazyk. Náměty jeu de role skupinová práce jazykové hry domácí úkoly práce s časopisy
Francouzský jazyk ročník TÉMA VÝSTUP G5 Tematické okruhy rodina škola místo, kde žije bydlení volný čas a zájmová činnost jídlo oblékání nákupy některé svátky, tradice příroda cizí země omluva a reakce
WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY
WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY Datum konání: 11. dubna 2014 Místo konání: Filozofická fakulta Masarykovy univerzity (učebna G13) Název přednášky: Přednášející: Webové korpusy Aranea
STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého
STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého Počet kreditů: 1 Typ předmětu: volitelný Způsob zakončení: zápočet Garant
Český jazyk a literatura - jazyková výchova
Využívá znalostí získaných v předešlých ročnících. OPAKOVÁNÍ OPAKOVÁNÍ Vysvětlí pojmy: sl.nadřazené, podřazené a slova souřadná.uvede příklady. Rozpozná sl. jednoznač.a mnohoznačná. V textu vyhledá synonyma,
Korpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
Stonožka jak se z výsledků dozvědět co nejvíce
Stonožka jak se z výsledků dozvědět co nejvíce Vytvoření Map učebního pokroku umožňuje vyhodnotit v testování Stonožka i dílčí oblasti učiva. Mapy učebního pokroku sledují individuální pokrok žáka a nabízejí
E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO
Seznam výukových materiálů III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblast: Předmět: Vytvořil: Současný český jazyk upevňování a procvičování obtížných gramatických jevů Český jazyk
Depfix: Jak dělat strojový překlad lépe než Google Translate
Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
Vzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 5. ročník Zpracovala: Mgr. Helena Ryčlová Komunikační a slohová výchova čte s porozuměním přiměřeně náročné texty potichu i nahlas vymyslí
Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program
Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program https://ubs.ff.cuni.cz/cs/ Charakteristika studijního programu SP vychází zvl. z vědních oborů: lingvistika, literatura,
UNIVERZITA KARLOVA V PRAZE FILOZOFICKÁ FAKULTA Ústav českého jazyka a teorie komunikace. Bakalářská práce. Jiří Svák
UNIVERZITA KARLOVA V PRAZE FILOZOFICKÁ FAKULTA Ústav českého jazyka a teorie komunikace Bakalářská práce Jiří Svák Možnosti chybové anotace češtiny nerodilých mluvčích Possibilities of Error Annotation
Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka
Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce
Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce
1 JAZYK A JAZYKOVÁ KOMUNIKACE UČEBNÍ OSNOVY 1. 2 Cvičení z českého jazyka Cvičení z českého jazyka 7. ročník 1 hodina 8. ročník 1 hodina 9. ročník 1 hodina Charakteristika Žáci si tento předmět vybírají
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek I. Zpracování textu II. III. IV. Jazyk G Desambiguace Kontrola gramatiky V. Kontrola stylu VI. Valence sloves VII. Vývoj a odezva I. Zpracování
Společný evropský referenční rámec pro jazyky (CERF)
Shrnutí obsahu Společný evropský referenční rámec (CERF). Jak nyní probíhá výuka jazyků na 1. LF? Vstupní testy na 1. LF v rámci CERF. Výuka jazyků na jiných LF v ČR. Návrhy pro změnu výuky jazyků na 1.
POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE
POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE na Fakultě životního prostředí UJEP v Ústí nad Labem. 1. Bakalářská a diplomová práce se odevzdává ve třech výtiscích v pevné vazbě. Práce musí být svázaná
Dataprojektor, jazykové příručky, pracovní listy
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Český jazyk (CEJ) Jazyková výchova Tercie 2 hodiny týdně Dataprojektor, jazykové příručky, pracovní listy Skladba *) Ţák vysvětlí pojem aktuální (kontextové)
Jazykové kurzy on-line a pod dohledem tutora
Jazykové kurzy on-line a pod dohledem tutora Jazykové kurzy on-line a pod dohledem tutora Ústav jazykové a odborné přípravy Univerzity Karlovy v Praze (ÚJOP UK) je jediným pracovištěm v České republice,
současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;
NABÍDKOVÝ LIST Ústav Českého národního korpusu Filozofická fakulta UK v Praze www.korpus.cz Odborné zaměření Český národní korpus je akademický projekt při FF UK, který se dlouhodobě soustředí na sběr,
UČEBNICE ČEŠTINY JAKO CIZÍHO JAZYKA
UČEBNICE ČEŠTINY JAKO CIZÍHO JAZYKA 1. 6. 2019 BARBORA ŠTINDLOVÁ METODICKÉ A ODBORNÉ CENTRUM barbora.stindlova@ ujop.c uni.cz OBSAH 1. JAKÉ ZNÁTE? 2. KTERÉ POUŽÍVÁTE? 3. KRITÉRIA PRO VÝBĚR? 4. PŘÍKLAD:
Vzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 8. ročník Zpracovala: Mgr. Marie Čámská Jazyková výchova spisovně vyslovuje běžně užívaná cizí slova umí spisovně vyslovit běžná cizí slova
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
Feat. Autor programu: Jirka Hana (kontakt: jirka tečka hana zavináč gmail tečka com) Autoři manuálu: Svatava Škodová a Jirka Hana Verze
Feat Autor programu: Jirka Hana (kontakt: jirka tečka hana zavináč gmail tečka com) Autoři manuálu: Svatava Škodová a Jirka Hana Verze 2011 05 28 1 Instalace programu feat Nejprve si do svého počítače
Obsah. Zpracoval:
Zpracoval: houzvjir@fel.cvut.cz 03. Modelem řízený vývoj. Doménový (business), konceptuální (analytický) a logický (návrhový) model. Vize projektu. (A7B36SIN) Obsah Modelem řízený vývoj... 2 Cíl MDD, proč
Strukturovaný životopis
Strukturovaný životopis Mgr. Magdaléna Rysová Osobní informace E-mail: magdalena.rysova@post.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Vzdělání od 2012 FF UK v Praze: doktorské studium, obor Český
Ročník: 4. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby
Ročník: 4. Časová dotace: 7 hodin týdně Komunikační a slohová Čtení a naslouchání čtení jako zdroj informací aktivní naslouchání s otázkami Žák čte s porozuměním přiměřeně náročné texty potichu i nahlas.
Koncept a adaptace autoevaluačníhonástroje: Dotazník strategií učení se cizímu jazyku
ČAPV 2012, PedFUK Praha Koncept a adaptace autoevaluačníhonástroje: Dotazník strategií učení se cizímu jazyku s k Tato prezentace a dílčí analýzy vznikly v rámci projektu GAP407/12/0432 Strategie učení
Popis morfologických značek poziční systém
Popis morfologických značek poziční systém Jan Hajič Ústav formální a aplikované lingvistiky MFF UK Morfologická analýza a syntéza Morfologické značky jsou součástí výsledku (výstupem) morfologické analýzy,
VĚTNÉ ČLENY. Mgr. Jiří Ondra Procvičení základních pojmů a kategorií z oblasti české skladby. Zdokonalování jazykových vědomostí a dovedností
VĚTNÉ ČLENY Autor Mgr. Jiří Ondra Anotace Opakování základních pojmů a kategorií z oblasti české skladby Očekávaný přínos Procvičení základních pojmů a kategorií z oblasti české skladby Tematická oblast
Francouzský jazyk. Jazykové prostředky. Tematické okruhy. význam. Pravopis. zájmová činnost. projevu ve známých výrazech Gramatické kategorie na
Francouzský jazyk ročník TÉMA G5 Tematické okruhy zájmová činnost tradice ni službu, informaci jednoduchý argument Porozumění a poslech běžně rozumí známým výrazům a větám se vztahem k osvojovaným tématům;
2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.
TABULKY SLOVÍČEK Už před lety jsem si všiml, že z nějakého důvodu studenti na základní a dokonce i na pokročilejší úrovni často neznají některá úplně základní slovíčka. Nejvíce se to dá pozorovat u sloves,
KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!
KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze O (Ú)ČNK Ústav Českého národního korpusu, založen v roce
Jak lze v korpusech hledat doklady pro výzkum morfologie?
Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
CÍLOVÝ JAZYK ČEŠTINA
CÍLOVÝ JAZYK ČEŠTINA Barbora Štindlová Ústav jazykové a odborné přípravy Univerzity Karlovy?! zvládání češtiny má pro integrační snahy zásadní význam největší rezervy nutné zvládnutí češtiny jako komunikačního
DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ
DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ Číslo projektu Číslo a název šablony klíčové aktivity Tématická oblast CZ.1.07/1.5.00/34.0963 II/2 Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační
MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)
TEMATICKÝ PLÁN (ŠR 2014/15) PŘEDMĚT Český jazyk TŘÍDA/SKUPINA VYUČUJÍCÍ ČASOVÁ DOTACE UČEBNICE (UČEB. MATERIÁLY) - ZÁKLADNÍ POZN. (UČEBNÍ MATERIÁLY DOPLŇKOVÉ aj.) sekunda Mgr. Barbora Maxová 2hod/týden,
Itálie Dotazník pro učitele VŠ připravující budoucí učitele cizích jazyků Zpracování údajů
Itálie Dotazník pro učitele VŠ připravující budoucí učitele cizích jazyků Zpracování údajů O Vás 1. Dotazník vyplnilo sedm vysokoškolských pedagogů připravujících budoucí učitele cizích jazyků. 2. Šest
Český jazyk ve 4. ročníku
Český jazyk ve 4. ročníku září Jazyková Čte s porozuměním přiměřeně náročné texty potichu i nahlas. učebnice strana 3 7 Procvičuje praktické naslouchání při komunikaci s další osobou. pracovní sešit strana
Building an Error-tagged Learner Corpus of Czech
Building an Error-tagged Learner Corpus of Czech Jirka Hana, Alexandr Rosen & Barbora Štindlová Charles University, Prague & Technical University, Liberec Institute of Formal and Applied Linguistics Seminar
OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie
OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie Y SPOLEČNÉHO ZÁKLADU POVINNÉ 1 1. Úvod do filozofie* 2. Cizí jazyk** 0p + 12s 3 Zk (Platnost akreditace: 17.2. 2009 1.3. 2015) Zk p 6
Další cizí jazyk Německý jazyk /čtyřleté gymnázium a vyšší stupeň osmiletého gymnázia/
Další cizí jazyk Německý jazyk /čtyřleté gymnázium a vyšší stupeň osmiletého gymnázia/ CHARAKTERISTIKA VYUČOVACÍHO PŘEDMĚTU OBSAHOVÉ VYMEZENÍ Vyučovací předmět pokrývá vzdělávací oblast Jazyk a jazyková
NÁVOD K ANOTACI CHYBOVÉHO KORPUSU verze 5.1 ( )
PROJEKT: Inovace ve vzdělávání v oboru čeština jako druhý jazyk KLÍČOVÁ AKTIVITA 06: Inovace didaktických metod 2 tvorba korpusu se zapojením studentů NÁVOD K ANOTACI CHYBOVÉHO KORPUSU verze 5.1 (9.3.2012)
2. Korpusový portál a volně dostupné nástroje
1. Něco málo o jazykových korpusech co to je a jak se to používá 2. Korpusový portál a volně dostupné nástroje webový portál www.korpus.cz 3. Korpusový nástroj SyD porovnání dvou a více slov z hlediska
4.9.2. Příprava na Cambridge English
4.9.2. Příprava na Cambridge English Seminář je určen pro pokročilé žáky anglického jazyka, kteří se chtějí systematicky připravovat ke zkoušce k získání nejrozšířenějšího mezinárodně uznávaného certifikátu
Předmět: Konverzace v ruském jazyce
Vzdělávací oblast: Vzdělávací obor: Jazyk a jazyková komunikace Cizí jazyk Konverzace v ruském jazyce Vyučovací předmět Konverzace v ruském jazyce vychází ze vzdělávacího oboru Další cizí jazyk, který
Základní škola Marjánka
Základní škola Marjánka Historie školy The school history Roku 1910 začíná v budově na Marjánce vyučování v pěti postupných ročnících s pěti paralelními třídami. The Marjanka elementary school was established
Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby
Ročník: 5. Časová dotace: 7 hodin týdně Komunikační a slohová Zážitkové čtení a naslouchání klíčová slova vyhledávací čtení aktivní naslouchání se záznamem slyšeného Žák při hlasitém čtení vhodně využívá
Testy do hodin - souhrnný test - 6. ročník
Kolik procent škol jste předstihli Škola: Název: Obec: BCEH ZŠ a MŠ, Slezská 316 Slavkov - 6. ročník ČESKÝ JAZYK Máte lepší výsledky než 7 % zúčastněných škol. MATEMATIKA Máte lepší výsledky než 7 % zúčastněných
Výchovné a vzdělávací strategie uplatňované v předmětu Mediální výchova
Název ŠVP Motivační název Datum 15.6.2009 Název RVP Verze 01 Dosažené vzdělání Střední vzdělání s maturitní zkouškou Platnost od 1.9.2009 Forma vzdělávání Koordinátor Délka studia v letech: denní forma
Hodnocení kvality logistických procesů
Téma 5. Hodnocení kvality logistických procesů Kvalitu logistických procesů nelze vyjádřit absolutně (nelze ji měřit přímo), nýbrž relativně porovnáním Hodnoty těchto znaků někdo buď předem stanovil (norma,
Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova
Vyučovací předmět: Český jazyk a literatura Ročník: 6. Vzdělávací obsah Očekávané výstupy z RVP ZV Školní výstupy Učivo Přesahy a vazby, průřezová témata rozlišuje spisovný jazyk, nářečí a obecnou češtinu
Vzdělávací oblast: JAZYK A JAZYKOVÁ KOMUNIKACE Vyučovací předmět: Český jazyk a literatura Ročník: 6.
Vzdělávací oblast: JAZYK A JAZYKOVÁ KOMUNIKACE Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova - zná pojem mateřský jazyk 1. Čeština jako mateřský jazyk MKV 4.4 - zná základní složky
ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Český jazyk skladba. Mgr. Jana Rozumová
Název projektu ICT podporuje moderní způsoby výuky Číslo projektu CZ.1.07/1.5.00/34.0717 Název školy Gymnázium, Turnov, Jana Palacha 804, přísp. organizace Číslo a název šablony klíčové aktivity III/2
obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy
LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy obecná lingvistika Den otevřených dveří 11. ledna 2014 15 hodin, nám. Jana Palacha 2, míst. 104 LING oddělení lingvistiky Filozofická
Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda
Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda KATEDRA ČESKÉHO JAZYKA A LITERATURY S DIDAKTIKOU, PdF OU Sledované učebnice: Český jazyk učebnice pro základní školy (2. 5. ročník),
L A TEX Korektura textu
Semestrální práce z předmětu Kartografická polygrafie a reprografie L A TEX Korektura textu Autor: Jana Baarová,Pavla Ptáčková, Hana Gubániová, Rudolf Klímek Editor: Jan Varyš Praha, 5.5. 2010 Katedra
Čeština cílový jazyk a korpusy
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta přírodovědně-humanitní a pedagogická Katedra českého jazyka a literatury Karel Šebesta Svatava Škodová a kolektiv Čeština cílový jazyk a korpusy Liberec 2012 Tato
ONLINE PŘÍPRAVNÝ KURZ KE ZKOUŠCE TOEFL IBT (Internet Based
ONLINE PŘÍPRAVNÝ KURZ KE ZKOUŠCE TOEFL IBT (Internet Based Test) od ETS Chcete získat certifikát, který dokazuje vaši znalosti angličtiny? Cambridge Institute má řešení. Využijte příležitost a zapište
Český jazyk v 5. ročníku
Český jazyk v 5. ročníku září Jazyková Při hlasitém čtení vhodně využívá modulace souvislé řeči a různá zabarvení hlasu. Po tichém čtení samostatně reprodukuje text. Odliší podstatné a okrajové informace,
Český jazyk - Jazyková výchova
Prima Zvuková stránka jazyka Stavba slova a pravopis rozlišuje spisovný jazyk, nářečí a obecnou češtinu Jazyk a jeho útvary seznamuje se s jazykovou normou spisovně vyslovuje česká a běžně užívaná cizí
studijních oborů na MU
Principy hodnocení studijních oborů na MU Soňa Basovníková Brno, 10.10. 2008 Odbor pro strategii a rozvoj 1 Hodnocení studijních programů představuje kontinuální proces monitorování a zlepšování studijních
Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15
Obsah Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15 VÝSLOVNOST A PRAVOPIS Německá výslovnost 18 Hlavni rozdíly mezi českou a německou výslovnosti 19 Přízvuk 20
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ
DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ Číslo projektu Číslo a název šablony klíčové aktivity Tématická oblast CZ.1.07/1.5.00/34.0963 II/2 Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační
Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod
Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období 1. 2. 2016 31. 1. 2019 1. Úvod Ústav teoretické a komputační lingvistiky FF UK (dále ÚTKL) byl založen roku 1990 prof. PhDr.
SADA VY_32_INOVACE_CJ1
SADA VY_32_INOVACE_CJ1 Přehled anotačních tabulek k dvaceti výukovým materiálům vytvořených Mgr. Bronislavou Zezulovou a Mgr. Šárkou Adamcovou. Kontakt na tvůrce těchto DUM: zezulova@szesro.cz a adamcova@szesro.cz
7 UČEBNÍ OSNOVY 7.1 JAZYK A JAZYKOVÁ KOMUNIKACE Český jazyk (ČJ) Charakteristika předmětu 1. stupně
7 UČEBNÍ OSNOVY 7.1 JAZYK A JAZYKOVÁ KOMUNIKACE 7.1.1 Český jazyk (ČJ) Charakteristika předmětu 1. stupně Vyučovací předmět se vyučuje ve všech ročnících 1. stupně. V 1. ročníku má časovou dotaci 8 hodin
Dataprojektor, jazykové příručky, pracovní listy
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Tvarosloví *) Český jazyk (CEJ) Jazyková výchova Sekunda 2 hodiny týdně Dataprojektor, jazykové příručky, pracovní listy Určuje slovní druhy, své tvrzení vždy
PROVÁDĚNÍ SPOLEČNÉHO EVROPSKÉHO RÁMCE PRO JAZYKY V EVROPSKÝCH SYSTÉMECH VZDĚLÁVÁNÍ
GENERÁLNÍ ŘEDITELSTVÍ PRO VNITŘNÍ POLITIKY TEMATICKÁ SEKCE B: STRUKTURÁLNÍ POLITIKA A POLITIKA SOUDRŽNOSTI KULTURA A VZDĚLÁVÁNÍ PROVÁDĚNÍ SPOLEČNÉHO EVROPSKÉHO RÁMCE PRO JAZYKY V EVROPSKÝCH SYSTÉMECH VZDĚLÁVÁNÍ
OBSAH VZDĚLÁVÁNÍ, UČIVO
OBSAH VZDĚLÁVÁNÍ, UČIVO Vzdělání Učivo patří mezi jeden ze tří hlavních činitelů výuky. Za dva zbývající prvky se řadí žák a učitel. Každé rozhodování o výběru učiva a jeho organizaci do kurikula vychází
Zpráva o zhotoveném plnění
Zpráva o zhotoveném plnění Aplikace byla vytvořena v souladu se Smlouvou a na základě průběžných konzultací s pověřenými pracovníky referátu Manuscriptorium. Toto je zpráva o zhotoveném plnění. Autor:
Projekt IMPLEMENTACE ŠVP
Střední škola umělecká a řemeslná Evropský sociální fond "Praha a EU: Investujeme do vaší budoucnosti" Projekt IMPLEMENTACE ŠVP Evaluace a aktualizace metodiky předmětu Německý jazyk Obory nástavbového
Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)
Marketingová komunikace Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) 2. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Minulé soustředění úvod
Kam s ní? O interpunkční čárce v souvětí Jana Svobodová
Kam s ní? O interpunkční čárce v souvětí Jana Svobodová KATEDRA ČESKÉHO JAZYKA A LITERATURY S DIDAKTIKOU, PdF OU Teoreticky o čárce v souvětí Bylo by asi výhodné, kdyby se psaní čárky jako interpunkčního
Školní vzdělávací program Základní školy a mateřské školy Sdružení
Vyučovací předmět: Český jazyk a literatura 3. ročník Měsíc Téma Učivo Očekávaný výstup září říjen OPAKOVÁNÍ Z 2. roč. VĚTA JEDNODUCHÝ PŘÍBĚH OPAKOVÁNÍ Z 2. ročníku PÁROVÉ SOUHLÁSKY ABECEDA JEDNODUCHÝ
Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.
Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky Ing. Jan Ministr, Ph.D. I. Úvod Agenda II. Customer Intelligence (CI),zpracování dat z Internetu III. Analýza obsahu IV.
Předmět: Český jazyk a literatura
21 sestaví osnovu vyprávění a na jejím základě vytváří krátký mluvený nebo písemný projev s dodržením časové posloupnosti 30 porovnává významy slov, zvláště slova stejného nebo podobného významu a slova
TRENDS IN INTERNATIONAL MATHEMATICS AND SCIENCE STUDY
Identification Label TRENDS IN INTERNATIONAL MATHEMATICS AND SCIENCE STUDY Školní dotazník 4. ročník Česká školní inspekce Fráni Šrámka 37 150 21 Praha 5 IEA, 2014 Školní dotazník Vaše škola souhlasila
s Kateřina Vlčková, Klára Kostková, Karolína Pešková, Miroslav Janík, Kateřina Švejdíková
ČAPV 2014 UP Olomouc TYPICKÉ SEKVENCE A SHLUKY ŽÁKOVSKÝCH STRATEGIÍ NA KONCI ZÁKLADNÍHO VZDĚLÁVÁNÍ VE VAZBĚ NA ÚSPĚŠNOST ŘEŠENÍ JAZYKOVÝCH ÚLOH KET s Kateřina Vlčková, Klára Kostková, Karolína Pešková,
Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen
Paralelní korpusy 0/2 Z, zimní semestr 2006/2007 Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofická fakulta Univerzity Karlovy v Praze Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 1
5.1 Český jazyk a literatura Vyšší stupeň osmiletého gymnázia a gymnázium čtyřleté
5.1 Český jazyk a literatura Vyšší stupeň osmiletého gymnázia a gymnázium čtyřleté Časové, obsahové a organizační vymezení Ročník 1. 2. 3. 4. Hodinová dotace 4 4 4 4 Realizuje se obsah vzdělávacího oboru