Multidimenzionální analýza češtiny. Pilotní studie

Podobné dokumenty
OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

SLOVNÍ DRUHY Platón Aristoteles Dionysios Thrácký Priscianus

SADA VY_32_INOVACE_CJ1

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Český jazyk - Jazyková výchova

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Modul NE2-1. Osnova: Arbeitsbuch. Ismaning: Max Hueber, s. ISBN

Základy latiny II

Dataprojektor, jazykové příručky, pracovní listy

Úvod do gramatiky. Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255

Popis morfologických značek poziční systém

Jazyk a jazyková komunikace 2. ročník a sexta

IV. Gramatika A. Tvarosloví 1. Slovní druhy

Specializovaný korpus BANÁT a jeho využití

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Příspěvky k české morfologii

Přední střední zadní Přední střední zadní vysoké i u í ú vysoké střední e o é ó střední nízké a á nízké

ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps

Kolísání rodu substantiv

Tabulace učebního plánu

Český jazyk a literatura - jazyková výchova

Předmět: Latina. Charakteristika vyučovacího předmětu:

Ú v o d e m Lekce 2: To je m o je. A ta m to ta k é < t? C D l / l l... 34

JAZYKOVÁ VÝCHOVA. Tvarosloví. Pravopis. Jazyk a jazyková komunikace - Český jazyk - 7. ročník. POZNÁMKY (průřezová témata, mezipředmětové vztahy)

Mluvnice současné češtiny

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Workshop o paralelním korpusu InterCorp

ŠVP Gymnázium Ostrava-Zábřeh Latina

Český jazyk a literatura

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 3.. Průřezová témata Mezipředmětové vztahy.

7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků

Specifikace požadavků pro školní část přijímací zkoušky (anglický jazyk) Šestiletý obor vzdělávání

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Termíny z ČJ (pozor, obsahuje chyby)

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Gymnázium, Praha 6, Arabská 14. Předmět: Latina

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Dominika Kováříková. JTP, 6. listopadu 2010

Tabulace učebního plánu

Morfologie odborných textů

Školní vzdělávací program Základní školy a mateřské školy Sdružení

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Dataprojektor, kodifikační příručky

Všestranný jazykový rozbor (VJR)

Vzdělávací obsah vyučovacího předmětu

Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: literární výchova - ročník: KVARTA

Český jazyk a literatura

Vyučovací hodiny mohou probíhat v kmenové třídě, multimediální učebně, žákovské knihovně, učebnách s interaktivní tabulí.

OBSAH 1 TVOŘENÍ SLOV SKLÁDÁNÍM Obecný výklad Rozsah čisté kompozice a komplexních postupů u složených

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Předmět: ČESKÝ JAZYK Ročník: 7. ŠVP Základní škola Brno, Hroznová 1. Výstupy předmětu

LATINA. Oddíl E učební osnovy VI.1.B

Vzdělávací oblast Předmět Studium Celkové

Olympiáda v českém jazyce 45. ročník, 2018/2019

Jazyk a jazyková komunikace Seminář z českého jazyka 2. 7.

Učební osnovy vyučovacího předmětu český jazyk a literatura se doplňují: 2. stupeň Ročník: šestý. Tematické okruhy průřezového tématu

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

Základní škola ve Vamberku. Tematický plán učiva ČESKÝ JAZYK PRO 9. ROČNÍK. Václav Strážnický 2012/13

Příprava na Cambridge English

RVP ZV CIZÍ JAZYK. 1. stupeň 2. období (5. ročník) UČIVO (slouží ke specifikaci obsahu a rozsahu očekávaných výstupů nebo indikátorů)

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Učební osnovy vyučovacího předmětu český jazyk a literatura se doplňují: 2. stupeň Ročník: sedmý. Tematické okruhy průřezového tématu

Validita korpusu ORAL2013. Mgr. Jan Chromý, Ph.D.

Německý jazyk - SextaB a 2A - úroveň A2 - Učebnice Direkt 1 ( lekce) Učivo RVP Učivo ŠVP Zařazení PT Integrace

TVAROSLOVÍ Mgr. Soňa Bečičková

OBSAH SEZNAM TERMÍNŮ, ZKRTATEK A ZNAČEK POUŽÍVANÝCH V UČEBNICI POSTAVY PŘÍBĚHU 3 LEKCE 1 STUDIUM JAZYKŮ 8 LEKCE 2 LIDSKÁ KOMUNIKACE 42.

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Vyučovací předmět: Český jazyk a literatura Ročník: 9. Školní výstupy

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Český jazyk pro 7. ročník

ŠKOLNÍ VZDĚLÁVACÍ PROGRAM DR. J. PEKAŘE V MLADÉ BOLESLAVI

1 Substantiva. 2 Adjektiva. Obsah. Lekce Obsah Cvičení

Vzdělávací obsah vyučovacího předmětu

2. stupeň Český jazyk

Český jazyk v 5. ročníku

Výstupy odpovídající úrovni A1 podle SERR. Dataprojektor, počítač, smartphone, pracovní listy, slovníky. Gymnázium Jiřího Ortena, Kutná Hora

6.2. II.stupeň. Vzdělávací oblast: Vyučovací předmět: ČESKÝ JAZYK A LITERATURA. Charakteristika vyučovacího předmětu 2.

SLOVNÍ DRUHY. Vytvořeno dne: druhů, vymezuje tři základní kritéria členění. Závěr prezentace slouží k procvičení osvojených poznatků.

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

Předmět: Německý jazyk Beste Freunde 2 Ročník: 8.

Gymnázium Jiřího Ortena, Kutná Hora

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda

Projekt IMPLEMENTACE ŠVP

RVP ŠVP UČIVO - samostatně pracuje s Pravidly českého pravopisu, se Slovníkem spisovné češtiny a s dalšími slovníky a příručkami

Český jazyk a literatura

Nové orgány na postupu

dvouletý volitelný předmět

Český jazyk a literatura

ŠVP Učivo. RVP ZV Kód. RVP ZV Očekávané výstupy. ŠVP Školní očekávané výstupy. Obsah RVP ZV

3) Jazykové disciplíny a jejich využití v češtině

Francouzský jazyk. Náměty jeu de role skupinová práce jazykové hry domácí úkoly práce s časopisy

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 5. Průřezová témata Mezipředmětové vztahy.

Transkript:

Multidimenzionální analýza češtiny. Pilotní studie Adrian Zasina, Anna Řehořková, David Lukeš, Petra Poukarová, Václav Cvrček, Zuzana Komrsková ÚČNK FF UK

Teoretický rámecij

Východiska Motivace snaha popsat variabilitu textů na základě variace jazykových jevů doplnění funkční klasifikace textů v ČNK o klasifikaci vnitrotextovou Historie Douglas Biber: Variation across speech and writing (1988) Vilém Kodýtek: A translation of Biber s three-dimensional model of English into Czech (nepublikovaná studie)

Metoda 1. sestavení žánrově pestrého korpusu 2. pečlivá analýza a anotace dat 3. určení stylově relevantních rysů 4. operacionalizace rysů a zjištění jejich frekvence v textech korpusu 5. vyhodnocení frekvenčních dat pomocí faktorové analýzy 6. identifikace faktorů a jejich interpretace (dimenze) 7. (zpětná klasifikace textů na základě relevantních faktorů)

DataIj

Korpus Koditex Souhrnné informace: 10,8 mil. pozic (8,9 mil. slov) detailní anotace lemmatizace, tagování, frazémy, syntax (různé systémy) 3 hlavní domény 1. wri psaný jazyk (8,7 mil., 80 %) 2. spo mluvený jazyk (1,2 tis., 11 %) 3. web jazyk internetu (969 tis., 9 %) vzorkování (1 5 tis. tokenů); 3428 textů texty z existujících korpusů ČNK + BMK, Dialog, sociální sítě

Psaný jazyk (wri) Fiction (22 %) próza kratší próza poezie/písně scénář/drama krimi/thriller sci-fi fantasy červená knihovna Non-fiction (39 %) vědecká (HUM, SSC, NAT, FTS) populárně naučná (HUM, SSC, NAT, FTS) profesní (HUM, SSC, NAT, FTS) memoáry encyklopedie administrativa Journalistic (33 %) zpravodajství politika volný čas kultura komentáře ekonomika bydlení/zahrada/hobby lifestyle bulvár sport zajímavosti společnost Private (korespondence, 3 %)

Mluvený jazyk (spo) Jednotka/text: jeden mluvčí v jedné sondě nepřipravený, neveřejný, neformální (25 %) ORAL2013 nepřipravený, neveřejný, formální (25 %) PMK-F + BMK-F nepřipravený veřejný (25 %) DIALOG připravený veřejný (25 %) SPEECHES + EUROPARL

Jazyk internetu (web) Jednotka/text: jeden uživatel/jedna stránka obousměrný /neformální/ (25 %) sociální sítě jednosměrný /formální/ (25 %) internetová fóra psaný (50 %) blogy (25 %), Wikipedie (25 %)

RysyIj

Rysy Jazykové rysy zkoumané v MDA: předpoklad: variabilita jazyka, která je funkčně využita jazykové rysy s funkční asociací gramatické kategorie, lexikální třídy, syntaktické struktury východisko: odborná literatura (stylistické, slovníkové a gramatické příručky), D. Biber, introspekce + intuice současný stav: 134 rysů; plán: více než 150

Rysy letem světem fonologie protetické v, é > í, ý > ej, ú > ou, ú > ou, příznakové ú, příznakové ou, prům. délka slova, eufonie (?), zkrácené formy, příklonky v iniciální pozici morfologie frekvence pádů, frekvence rodů, koncovka -ama, morfologická konkurence -é vs. -i, číslo substantiv, jmenné tvary adjektiv, slovesné osoby, slovesný způsob, čas, vid a rod, přechodníky, infinitiv na -ci, typy negace, verba finita, pomocné být ve formě -s lexikon frekvence slovních druhů / jejich inventář, sém. vyprázdněná subst./adj./verba/adv., ukazovací zájm./adv., určení času, určení místa, neurčitá adverbia, restriktory, synsémantika, poetismy, tabuová slova, časové výrazy, modalita, neurčitá zájmena, zájmena pro 1., 2 a 3. os., přivlastňovací zájmena, slovesa myšlení a mluvení, existenciální být, lexikální/tvaroslovné inovace, zastaralá synsémantika a adv., latinské citátové výrazy

Rysy letem světem (část 2) pragmatika kontaktové výrazy, výplňková slova, expresivní částice, částice zesilující význam, částice oslabující význam, polyfunkční to, propria, vykřičník, využití častých ngramů slovotvorba analytické stupňování, adj. podobnosti, přivlastňovací adj., verbální adj., stupňování, analytické stupňování, deminutiva, verbální substantiva, abstrakta, augmentativa syntax přívlastky ante-/postponované ne/rozvité, klastry tvarů, VV s deikt. adv., konjunkce, vícečlenné konektory, koordinace, předložky, sekundární předložky, vztažné věty typu který/co/jenž, větná relativa, komplementace adj., komplementace slovesa, jmenný přísudek, infinitiv kondenzační, druhy VV, průměrná délka věty, negace vícenásobná, bezpříznakový slovosled, korelativa technikálie číslice, symboly, zkratky, odkazy, lowercase, titlecase, uppercase, mixed case text částice členící text, otázky, frazeologie, opakování slov, lex. bohatost, tematická koncentrace, zttr (tvary, bigramy)

První předběžné výsledkyij

Dílčí a předběžné výsledky Disclaimer ne všechny zamýšlené rysy byly použity (130 ze 150) operacionalizace některých rysů není optimální (neznáme chybovost) analýza pouze prvních dvou faktorů/dimenzí co dál chybí: počet faktorů, rotace, validita analýzy

Podíl rysů na faktorech 1 a 2 (loadings)

Faktor 1 Pozitivní vliv verbum finitum ind. verb verba sem. vyprázdněná verba perf. aspekt slovesa myšelní a mluvení Negativní vliv antep. adj. atributy genitiv subst. adjektiva subst. neutra prům. délka slova abstrakta

Texty podle faktorů 1 a 2

Faktor 2 Pozitivní vliv ukaz. zájmena ukaz. adv. expres. částice sem. vyprázd. adv. částice členící text synsémantika Negativní vliv titelcase (Abc) zttr slov (lex. bohatost) předl. užití G, D, A a L subst. fem. substantiva nom. subst.

Texty podle faktorů 1 a 2 (spo, web, wri)

Pokus o předběžnou interpretaci Faktory 1 a 2 a jejich interpretace 1. faktor: verbální charakteristiky, indikativ, perfektiva dějovost, dynamičnost adjektiva, abstrakta, délka slov popisnost 2. faktor: ukaz. zájm. a adv., částice, synsémantika nepřipravenost/situační ukotvenost subst., nominalizace, předl. fráze, lex. bohatost přepravenost/situační neukotvenost

Děkujeme za pozornost a těšíme se na podněty!