Kvantitativní analýza žánrů Radek Čech & Miroslav Kubát
Východiska 1. jazyk jako projev chování 2. jazykové chování ovlivněno pragmatickými faktory (kontextem) 3. některé kontexty se opakují a vykazují velmi podobné rysy uchazečský pohovor soudní přelíčení určitá zaměstnání (mluva řezníků vs. mluva realitních makléřů) žánry 4. pokud platí (1), (2) a (3), pak se dá předpokládat, že kontexty s podobnými rysy by měly podobně ovlivňovat jazykové chování různé kontexty by se měly projevovat v různém jazykovém chování tendence!!! 5. jde nám primárně o jazykovou analýzu
Vymezení měřitelných vlastností kontextu kontext = soubor řady různorodých vlastností cíl komunikace věk, vzdělání mluvčího/pisatele věk, vzdělání posluchače/čtenáře prostředí (hospoda, posluchárna, soudní síň ) momentální stav mysli denní doba, počasí, délka doby před výplatou, žízeň
Vymezení měřitelných vlastností kontextu smysluplnost praktická autorství (kriminalistika), didaktika teoretická styly, autorství (literární historie), žánry proveditelnost věk, vzdělání, identifikace mluvčího nálada, momentální stav mysli, žízeň nutný redukcionismus vzájemný vliv faktorů (žánry vs. autorství) některé faktory se zanedbávají (např. stav mysli, žízeň) = fluktuace
Vymezení měřitelných vlastností jazyka lingvisticky interpretovatelné slovní bohatství, tematická slova, tematická koncentrace, délka věty, distribuce slovních druhů lingvisticky neinterpretovatelné zpravidla desítky parametrů není jasný vztah mezi parametry ani jejich intepretace (např. n-gramy různých jazykových jednotek, faktorové analýzy)
Kvantifikace umožňuje vyjádřit velikost rozdílu mezi jednotlivými texty mezi skupinami textů formalizace nutí badatele k jasně vymezené operacionalizaci replikovatelnost
Proč analyzovat žánry kvantitativní analýzou jazyka? lingvista zkoumaní vlivu pragmatických faktorů (v tomto případě žánrů) na jazykové chování zkoumání míry vlivu pragmatických faktorů (žánrů) obecně zkoumání míry vlivu vzhledem ke zvoleným jednotkám fonologie lexikum morfologická komplexita syntax analýza na první pohled neviditelných vlastností jazykového chování
Proč analyzovat žánry kvantitativní analýzou jazyka? literární vědec/historik/kritik vzhledem k nejasnosti vymezení hranic a typů žánrů možná inspirace pro jejich třídění potvrzení/vyvrácení introspektivního hodnocení měření míry homogenity skupin textů nová klasifikace textů
co od ní nelze čekat interpretace vystihnutí podstaty žánru jasně danou klasifikaci žánrů vždy jde o tendence fluktuace redukcionismus Kvantitativní analýza žánrů
Stylistika Literárněvědná Lingvistická Kvalitativní Kvantitativní = stylometrie Zkoumání stylů (žánry, autoři, ) Klasifikace textů (deep learning)
Aktivita Q Poměr sloves V a sumy sloves V a adjektiv A v textu. Q = V V+A V počet sloves A počet adjektiv
Seřaďte žánry v korpusu KČ podle aktivity textu román povídka cestopis studie sloupek pohádka dopis báseň
AKTIVITA 0,75 0,70 0,65 0,60 0,55 0,50 0,45 0,40 0,35 0,30 pohádka povídka báseň román dopis sloupek cestopis studie
román povídka cestopis studie sloupek pohádka dopis báseň román x povídka 2,32 x cestopis 20,06 20,83 x studie 31,03 30,73 5,25 x sloupek 9,71 10,99 7,04 12,50 x pohádka 2,34 0,80 15,67 20,86 9,01 x dopis 3,25 5,09 15,46 23,77 6,53 4,32 x báseň 0,31 0,70 9,86 12,87 5,39 1,12 1,77 x
AKTIVITA 0,75 0,7 0,65 0,6 0,55 0,5 báseň pohádka povídka román dopis sloupek 0,45 0,4 0,35 cestopis studie 0,3 0,3 20,3 40,3 60,3 80,3 100,3 120,3 140,3 160,3 SUMA U
AKTIVITA 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 50 100 150 200 250 300 350 400 450 500 SUMA U
AKTIVITA 1 0,9 0,8 0,7 0,6 0,5 POHÁDKA DOPIS STUDIE CESTOPIS POVÍDKA BÁSEŇ 0,4 0,3 0,2 50 100 150 200 250 300 350 400 450 500 SUMA U
Moving Average Morphological Richness (MAMR) MAMR L = MATTR(L) word MATTR(L) lemma MATTR L = σ N L i=1 Vi L(N L+1) L arbitrarily chosen length of a window, L < N N text length in tokens V i number of types in an individual window
Seřaďte žánry v korpusu KČ podle MAMR román povídka cestopis sloupek dopis
MAMR 0,110 0,105 0,100 0,095 0,090 0,085 0,080 0,075 0,070 0,065 0,060 dopis povídka sloupek román cestopis
MATTR 0,9 0,88 CESTOPIS 0,86 POVÍDKA 0,84 0,82 0,8 0,78 0,76 0,74 0,72 0,7 0,03 0,05 0,07 0,09 0,11 0,13 MAMR
Míra homogenity skupin textů
100,00 % 90,00 % 80,00 % 70,00 % 60,00 % 50,00 % 40,00 % 30,00 % 20,00 % 10,00 % 0,00 % Podíl signifikantních rozdílů aktivity v cestopisech KČ 20,94 % 13,85 % 13,12 % 17,33 % 2,94 % IL AL VDŠ OZH CNS
100,00 % 90,00 % 80,00 % 70,00 % 60,00 % 50,00 % 40,00 % 30,00 % 20,00 % 10,00 % 0,00 % 10,26 % Podíl signifikantních rozdílů aktivity v povídkách KČ 16,67 % Boží muka Trapní povídky Povídky z jedné kapsy 0,00 % 0,00 % Povídky z druhé kapsy
100,00 % 90,00 % 80,00 % 70,00 % 60,00 % 50,00 % 40,00 % 30,00 % 20,00 % 10,00 % 0,00 % Podíl signifikantních rozdílů STC v cestopisech KČ 34,00 % 30,30 % 24,30 % 25,74 % 4,76 % IL AL VDŠ OZH CNS
100,00 % 90,00 % 80,00 % 70,00 % 60,00 % 50,00 % 40,00 % 30,00 % 20,00 % 10,00 % 0,00 % Podíl signifikantních rozdílů STC v povídkách KČ 70,51 % 88,89 % 87,32 % Boží muka Trapní povídky Povídky z jedné kapsy 81,52 % Povídky z druhé kapsy
cechradek.cz miroslavkubat.webnode.cz Děkujeme za pozornost!