Multidimenzionální analýza češtiny. Pilotní studie Adrian Zasina, Anna Řehořková, David Lukeš, Petra Poukarová, Václav Cvrček, Zuzana Komrsková ÚČNK FF UK
Teoretický rámecij
Východiska Motivace snaha popsat variabilitu textů na základě variace jazykových jevů doplnění funkční klasifikace textů v ČNK o klasifikaci vnitrotextovou Historie Douglas Biber: Variation across speech and writing (1988) Vilém Kodýtek: A translation of Biber s three-dimensional model of English into Czech (nepublikovaná studie)
Metoda 1. sestavení žánrově pestrého korpusu 2. pečlivá analýza a anotace dat 3. určení stylově relevantních rysů 4. operacionalizace rysů a zjištění jejich frekvence v textech korpusu 5. vyhodnocení frekvenčních dat pomocí faktorové analýzy 6. identifikace faktorů a jejich interpretace (dimenze) 7. (zpětná klasifikace textů na základě relevantních faktorů)
DataIj
Korpus Koditex Souhrnné informace: 10,8 mil. pozic (8,9 mil. slov) detailní anotace lemmatizace, tagování, frazémy, syntax (různé systémy) 3 hlavní domény 1. wri psaný jazyk (8,7 mil., 80 %) 2. spo mluvený jazyk (1,2 tis., 11 %) 3. web jazyk internetu (969 tis., 9 %) vzorkování (1 5 tis. tokenů); 3428 textů texty z existujících korpusů ČNK + BMK, Dialog, sociální sítě
Psaný jazyk (wri) Fiction (22 %) próza kratší próza poezie/písně scénář/drama krimi/thriller sci-fi fantasy červená knihovna Non-fiction (39 %) vědecká (HUM, SSC, NAT, FTS) populárně naučná (HUM, SSC, NAT, FTS) profesní (HUM, SSC, NAT, FTS) memoáry encyklopedie administrativa Journalistic (33 %) zpravodajství politika volný čas kultura komentáře ekonomika bydlení/zahrada/hobby lifestyle bulvár sport zajímavosti společnost Private (korespondence, 3 %)
Mluvený jazyk (spo) Jednotka/text: jeden mluvčí v jedné sondě nepřipravený, neveřejný, neformální (25 %) ORAL2013 nepřipravený, neveřejný, formální (25 %) PMK-F + BMK-F nepřipravený veřejný (25 %) DIALOG připravený veřejný (25 %) SPEECHES + EUROPARL
Jazyk internetu (web) Jednotka/text: jeden uživatel/jedna stránka obousměrný /neformální/ (25 %) sociální sítě jednosměrný /formální/ (25 %) internetová fóra psaný (50 %) blogy (25 %), Wikipedie (25 %)
RysyIj
Rysy Jazykové rysy zkoumané v MDA: předpoklad: variabilita jazyka, která je funkčně využita jazykové rysy s funkční asociací gramatické kategorie, lexikální třídy, syntaktické struktury východisko: odborná literatura (stylistické, slovníkové a gramatické příručky), D. Biber, introspekce + intuice současný stav: 134 rysů; plán: více než 150
Rysy letem světem fonologie protetické v, é > í, ý > ej, ú > ou, ú > ou, příznakové ú, příznakové ou, prům. délka slova, eufonie (?), zkrácené formy, příklonky v iniciální pozici morfologie frekvence pádů, frekvence rodů, koncovka -ama, morfologická konkurence -é vs. -i, číslo substantiv, jmenné tvary adjektiv, slovesné osoby, slovesný způsob, čas, vid a rod, přechodníky, infinitiv na -ci, typy negace, verba finita, pomocné být ve formě -s lexikon frekvence slovních druhů / jejich inventář, sém. vyprázdněná subst./adj./verba/adv., ukazovací zájm./adv., určení času, určení místa, neurčitá adverbia, restriktory, synsémantika, poetismy, tabuová slova, časové výrazy, modalita, neurčitá zájmena, zájmena pro 1., 2 a 3. os., přivlastňovací zájmena, slovesa myšlení a mluvení, existenciální být, lexikální/tvaroslovné inovace, zastaralá synsémantika a adv., latinské citátové výrazy
Rysy letem světem (část 2) pragmatika kontaktové výrazy, výplňková slova, expresivní částice, částice zesilující význam, částice oslabující význam, polyfunkční to, propria, vykřičník, využití častých ngramů slovotvorba analytické stupňování, adj. podobnosti, přivlastňovací adj., verbální adj., stupňování, analytické stupňování, deminutiva, verbální substantiva, abstrakta, augmentativa syntax přívlastky ante-/postponované ne/rozvité, klastry tvarů, VV s deikt. adv., konjunkce, vícečlenné konektory, koordinace, předložky, sekundární předložky, vztažné věty typu který/co/jenž, větná relativa, komplementace adj., komplementace slovesa, jmenný přísudek, infinitiv kondenzační, druhy VV, průměrná délka věty, negace vícenásobná, bezpříznakový slovosled, korelativa technikálie číslice, symboly, zkratky, odkazy, lowercase, titlecase, uppercase, mixed case text částice členící text, otázky, frazeologie, opakování slov, lex. bohatost, tematická koncentrace, zttr (tvary, bigramy)
První předběžné výsledkyij
Dílčí a předběžné výsledky Disclaimer ne všechny zamýšlené rysy byly použity (130 ze 150) operacionalizace některých rysů není optimální (neznáme chybovost) analýza pouze prvních dvou faktorů/dimenzí co dál chybí: počet faktorů, rotace, validita analýzy
Podíl rysů na faktorech 1 a 2 (loadings)
Faktor 1 Pozitivní vliv verbum finitum ind. verb verba sem. vyprázdněná verba perf. aspekt slovesa myšelní a mluvení Negativní vliv antep. adj. atributy genitiv subst. adjektiva subst. neutra prům. délka slova abstrakta
Texty podle faktorů 1 a 2
Faktor 2 Pozitivní vliv ukaz. zájmena ukaz. adv. expres. částice sem. vyprázd. adv. částice členící text synsémantika Negativní vliv titelcase (Abc) zttr slov (lex. bohatost) předl. užití G, D, A a L subst. fem. substantiva nom. subst.
Texty podle faktorů 1 a 2 (spo, web, wri)
Pokus o předběžnou interpretaci Faktory 1 a 2 a jejich interpretace 1. faktor: verbální charakteristiky, indikativ, perfektiva dějovost, dynamičnost adjektiva, abstrakta, délka slov popisnost 2. faktor: ukaz. zájm. a adv., částice, synsémantika nepřipravenost/situační ukotvenost subst., nominalizace, předl. fráze, lex. bohatost přepravenost/situační neukotvenost
Děkujeme za pozornost a těšíme se na podněty!