Specializované korpusy mluveného jazyka - jejich tvorba a využití



Podobné dokumenty
Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová

Specializovaný korpus BANÁT a jeho využití

ČEŠTINA PRO CIZINCE ČC / JEDNOOBOROVÉ MAGISTERSKÉ STUDIUM PREZENČNÍ

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Český jazyk a literatura Prostě-sdělovací funkční styl

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Anotace žákovského korpusu. Alena Poncarová Žďárek, Listopad 2011

Čeština doma & ve světě. [nová]

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

literatury a interpretace literárního díla) CC / 110. Česká literatura a kultura 19. století Jana Bischofová 2/1 Z 2/1 Zk

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

NÁVRHY TEMATICKÝCH PLÁNŮ. 1. ročník Počet hodin

Validita korpusu ORAL2013. Mgr. Jan Chromý, Ph.D.


Vzdělávací oblast : Jazyk a jazyková komunikace Vzdělávací obor: Cizí jazyk

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Charakteristika předmětu Anglický jazyk

Český jazyk a literatura Mluvené projevy

Učebnice Project 1 třetí edice, pracovní sešit Project 1 třetí edice. Učebnice Project 2 třetí edice, pracovní sešit Project 2 třetí edice

6.1 I.stupeň. Vzdělávací oblast: Cizí jazyk Vyučovací předmět: ANGLICKÝ JAZYK. Charakteristika vyučovacího předmětu 1.

RUSKÝ JAZYK ročník Charakteristika vyučovacího předmětu. Obsahové, časové a organizační vymezení

- 1 - Výstup Učivo Průřezová témata Mezipředmětové vztahy

Ústav českého jazyka a teorie komunikace Ústav české literatury a komparatistiky

K slovosledu mluvené češtiny v rumunském Bígru

Předmět: Konverzace v ruském jazyce

ŠKOLNÍ VZDĚLÁVACÍ PROGRAM

K výuce zvukové stránky češtiny na základní škole Pavlína Kuldanová

Eva Lehečková 28. workshop Ţďárek Litoměřice

Charakteristika vyučovacího předmětu 1. stupeň

2. Korpusový portál a volně dostupné nástroje

Školní vzdělávací program

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Český jazyk a literatura

Karel Kučera 98 STUDIE Z APLIKOVANÉ LINGVISTIKY 1/2013

Jazyk a jazyková komunikace Německý jazyk

Žáci s odlišným mateřským jazykem diskuse

ÚVOD DO STUDIA JAZYKA - JAZYK A ŘEČ

Němčina druhý jazyk

Cizí jazyk. Předmět: Anglický jazyk. 2. stupeň ZŠ

Vyučovací předmět ruský jazyk vychází ze vzdělávacího oboru Další cizí jazyk, který je součástí vzdělávací oblasti Jazyk a jazyková komunikace.

ŠVP Učivo. RVP ZV Kód. RVP ZV Očekávané výstupy. ŠVP Školní očekávané výstupy. Obsah RVP ZV

Vzdělávací obsah vyučovacího předmětu

d. Ruský jazyk Charakteristika vyučovacího předmětu

Anglický jazyk. Charakteristika vyučovacího předmětu

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

ČEŠTINA PRO CIZINCE. ČC / JEDNOOBOROVÉ BAKALÁŘSKÉ STUDIUM PREZENČNÍ (tříleté) Povinné předměty

Sociální politika v perspektivě životního cyklu obsah kurzu a podmínky splnění

Podoba a využití korpusu jinojazyčných a romských mluvčích češtiny: CZESL a ROMi Zuzanna Bedřichová Karel Šebesta Kateřina Šormová Svatava Škodová

KDYŽ ZAČÍNÁME MLUVIT... Lingvistický pohled na rané projevy česky hovořícího dítěte. Lucie Saicová Římalová

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Vyučovací předmět Ruský jazyk druhý cizí jazyk je součástí vzdělávací oblasti Jazyk a jazyková komunikace, vzdělávací obor Další cizí jazyk dle RVP.

Gymnázium Rumburk, vyšší stupeň osmiletého gymnázia a čtyřleté gymnázium, kvinta a 1. ročník, oktáva a 4. ročník, Další cizí jazyk/němčina

ŠVP Gymnázium Ostrava-Zábřeh Španělský jazyk

Základní škola Náchod Plhov: ŠVP Klíče k životu

RVP ZV CIZÍ JAZYK. 1. stupeň 2. období (5. ročník) UČIVO (slouží ke specifikaci obsahu a rozsahu očekávaných výstupů nebo indikátorů)

JAZYKOVÉ SCHOPNOSTI. Společnost: Slůně svět jazyků, s.r.o. Zástupce: Ing. Lucie Vlková, výkonná ředitelka

Cizí jazyk. Předmět: Anglický jazyk. 2. stupeň ZŠ

Modul NE2-1. Osnova: Arbeitsbuch. Ismaning: Max Hueber, s. ISBN

ČESKÝ JAZYK. Oddíl E učební osnovy I.1.C

Francouzský jazyk. Náměty jeu de role skupinová práce jazykové hry domácí úkoly práce s časopisy

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Výuka obvykle probíhá v běžných třídách, v jazykové učebně, v multimediální učebně, v učebně s interaktivní tabulí nebo na jiném vhodném místě.

ŠVP Školní očekávané výstupy. - komunikuje kultivovaně - moduluje souvislou řeč

ŠKOLNÍ VZDĚLÁVACÍ PROGRAM

Cizí jazyk. Předmět: Německý jazyk. 2. stupeň ZŠ

SEMINÁŘ Z ČESKÉHO JAZYKA. Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu

Příloha č. 4 ČESKÝ JAZYK LITERÁRNÍ VÝCHOVA

Řeč. u osob se sluchovým postižením. Mgr. MgA. Mariana Koutská

Administrativní styl

Cizí jazyk. Předmět: Německý jazyk. 2. stupeň ZŠ

5.1 Český jazyk a literatura Vyšší stupeň osmiletého gymnázia a gymnázium čtyřleté

Anglický jazyk pro 8. ročník druhý jazyk

Bc. a navazující Mgr. studium

Kumulace předložek nejen v banátské češtině

UČEBNÍ PLÁN PRO OBOR VZDĚLÁVÁNÍ ZÁKLADNÍ ŠKOLA SPECIÁLNÍ

Školní vzdělávací program pro základní vzdělávání, Základní škola Krásného 24

Oddíl E učební osnovy I.1.A ČESKÝ JAZYK A KOMUNIKACE

Aktuální stav OP VVV

Diplomových prací Bakalářských prací pro školní rok 2014/2015 zadání DP a BP do

Vzdělávací obsah vyučovacího předmětu

Gramatika. Přítomný čas prostý a průběhový. Minulý čas prostý pravidelných i nepravidelných sloves. Počitatelná a nepočitatelná podstatná jména

KOMUNIKUJEME V RÁMCI EU Metodika

Vzdělávací obsah vyučovacího předmětu

NEWTON Technologies a.s.

PŘEDSTAVENÍ PROJEKTU Nové talenty pro vědu a výzkum. Lenka Mynářová koordinátor projektu

Charakteristika vyučovacího předmětu Anglický jazyk ŠVP LMP

Německý jazyk - Kvinta

Časy přítomný prostý a průběhový, minulý prostý a průběhový, budoucnost s going to a will, předpřítomný Rozhovor, popis činností, porozumění textu

Studijní portál. Na našich stránkách: v pravém horním rohu naleznete odkaz Přihlásit se:

UČEBNÍ OSNOVY ZŠ M. Alše Mirotice

Očekávané výstupy z RVP Učivo Přesahy a vazby. znaky (pasivně), základní výslovnostní návyky, vztah mezi zvukovou a grafickou podobou slov

KATEDRA ČESKÉHO JAZYKA

Specifikace požadavků pro školní část přijímací zkoušky (anglický jazyk) Šestiletý obor vzdělávání

Český jazyk a literatura

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

I. Sekaniny1804 Ruský jazyk

Předmět: R U S K Ý J A Z Y K

Očekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)

Cizí jazyk Anglický jazyk (1. stupeň)

Transkript:

Specializované korpusy mluveného jazyka - jejich tvorba a využití Karolína Vyskočilová 34. Žďárek, Poděbrady, 2. 4. května 2014 vyskoczilova@seznam.cz

Obsah příspěvku korpusy čeština v zahraničí BANÁT Texas Czech Dialect Archive akviziční korpusy AKCES ROMi 1.0 CZESL-LONG/CZEFL-LONG proč budovat specilizované korpusy? zaznamenávané údaje k materiálu co tyto korpusy nabízejí? problémy při tvorbě korpusů a co by měly nabízet?

Korpusy češtiny v zahraničí BANÁT sběr 2011 + 2014 (Bígr) 150 tis. slov +? (cca 40 hod., 30 mluvčích, 35-92 let) připravuje ke zveřejnění (letos) nepřipravené projevy, nahrávající integrován do rozhovoru Texas Czech Dialect Archive / Texas Czech Legacy Project (The University of Texas at Austin) sběr 1970-2000 velikost? Svatava Pírková-Jakobsonová cca. 97 hodin, 1970-80 Karel Kučera? Lida Cope cca 327 hod., 90. léta John Tomecek cca 150 hod., 50 mluvčích (kol. r. 2000) zveřejnění průběžně nepřipravené projevy, polořízené rozhovory, jaz. úkoly, vyprávění apod.

Korpusy - akviziční korpusy AKCES ÚČJTK + další ústavy (ÚFAL, ÚČNK, TUL) ROMi 1.0 korpus mluvených projevů romských dětí a mládeže připravuje se k zveřejnění (letos) 50 nahrávek, 120 tis. slov 143 mluvčích (škola + neziskovky), 13-24 let často řízený rozhovor (set otázek/témat) CZESL-LONG/CZEFL-LONG longitudinální korpus mluvených projevů žáků založený na čtyřletých sběrech sběr několikrát za rok prozatím 4 gymnázia (3 Praha + Kroměříž), střední škola, UNI v Káhiře nahrávky vyučovacích hodin + volná diskuse několika žáků ve skupinách s nahrávajícím

Proč budovat spec. korpusy? čeština v zahraničí záchrana jazyka/dialektu, který se ztratí (+ záchrana existujících nahrávek) srovnání vývoje, stability jaz. rysů apod. zdokumentovat historii, příběhy a tradice (BANATxTCDP) vzbudit zájem o jazyky v zahraničí a získat tak podporu na jejich zachování akviziční korpusy studium procesů akvizice jazyka, resp. studiu užívání jazyka mluvčími ve fázi jazykové akvizice a pozdějšího jazykového vývoje nebo ve spojení s ní (např. při vyučování) plánování jazykové výuky a přípravě materiálů vytváření slovníků, mluvnic, přípravě testů i při vlastní výuce jako zdroj.

Zaznamenáváné údaje k materiálu místo sběru město (+ dial. oblast) místo (restaurace, doma, škola + typ školy a její provozovatel, příp. zájmová skupina apod.) sociální informace o lokalitě okolnosti sběru připravenost/nepřipravenost situace (návštěva, rozhovor s přáteli apod. referát, četba apod.)

mluvčí/respondent věk,pohlaví vzdělání (+ třída/rok) místo narození (+ pobyt v dětství) současný pobyt znalost dalšího jazyka, první jazyk, jazyk používaný doma, způsoby osvojování apod. vztah mluvčích (známost, rodina, přátelskost) zaměstnání zvl. poznámky počet hodin jazyka týdně, učebnice a spol. sběrač/tazatel přepisující

Co zpřístupněné korpusy nabízejí? přepis folkloristický, ale nahrávky (mp3/kontext) chyby odlišnosti od jazykové normy lemmatizace vs. více rovin přepisu překlad do aj morfologický komentář

Problémy při tvorbě korpusů: způsob přepisu používat interpunkci? ano ROMi (obvyklá ve spis., na pauzy se nehledí, porušování větné vazby se značí čátkou?) větné celky - TCDA ne BANÁT (pauzová interpunkce) všichni ale značí otázku či rozkaz Bude folkloristický překlad stačit? nezachycují se asimilace (přitom mohou být realizovány různě), zjednodušené realizace (kamennej, dcera) co odlišná kvantita fologická vs. váhání? ale třeba ROMi - jiná než standardní výslovnost (dybyz mohl, uňiverzita) banatismy, reginální slova (mušim vs. musim apod.) znační chyb? do textu, v další rovině? vůbec? Vyřešila by to další rovina? Fonetická? Značit přízvuk? Ortografická? Co např. protetické v apod.? Pudu vs. půjdu, mohla bysem vs. mohla bych

Problémy při tvorbě korpusů: další problémy anonymizace zveřejnění nahrávek zvuk není anonymní které údaje jsou již nutné anonymizovat? (jméno, příjmení, město, situace?)? nahrazovat zkratkou? nahrazovat jiným jménem shodného deklinačního typu? problém s přepisem cizích jmen a názvů značení nejazykových okolností (štěkání psa, zvuky v okolí, hovor v pozadí) parazitní zvuky? Je k něčemu je zachycovat? cizí jazyky v nahrávce, code-mixing přepisovat? překládat? přítomnost nahrávajícího, který není ze skupiny Je třeba komentář k nahrávkám či korpusům a pokud ano, tak jak rozsáhlý?

Děkuji za pozornost.

a co by měly nabízet? Co z toho jsme schopni využít? zaznamenávané údaje interpunkce roviny přepisu anonymizace cizí jazyky komentář??

Zdroje k jednotlivým korpusům korpusy AKCES http://akces.ff.cuni.cz/ ROMi 1.0 http://ufal.mff.cuni.cz/romi-10/ Texas Czech Legacy Project http://blogs.utexas.edu/txczech/ Texas Czehc Dialectic Archive http://blogs.utexas.edu/txczech/texas-czech-dialect-archive/ BEDŘICHOVÁ, Z. ŠEBESTA, K. ŠKODOVÁ, S. ŠORMOVÁ, K. (2011): Podoba a využití korpusu jinojazyčných a romských mluvčích češtiny: CZESL a ROMi. In: Fr. Čermák (ed.), Korpusová lingvistika Praha 2011. Svazek 2 Výzkum a výstavba korpusů. p. 93 104. ŠEBESTA, K., ed. a kol. Čeština - cílový jazyk a korpusy. Vyd. 1. Liberec: Technická univerzita v Liberci, 2012. 166 s. ISBN 978-80- 7372-848-9. VYSKOČILOVÁ, K. (2012): Syntaktická analýza projevů českých mluvčích v rumunském Banátu. Praha. Bakalářská práce. Univerzita Karlova v Praze, Filozofická fakulta, Ústav českého jazyka a teorie komunikace.