Kvantitativní analýza textu miroslav kubát FF OU Ostrava
Kvantitativní lingvistika Hledání zákonů v jazyce (např. MAL) Nalezení jazykové teorie. Korpusová lingvistika. Klasifikace textů, určování autorství apod. Automatické překlady apod. Textové analýzy, stylometrie.
Stylometrické metody Lingvisticky interpretovatelné (slovní bohatství, tematická koncentrace, délka tokenu, vzdálenosti sloves, aktivita & deskriptivita textu). Lingvisticky neinterpretovatelné (klastrové analýzy n-gramů či nejfrekventovanějších slov apod.)
Lingvisticky interpretovatelné metody Výhody: víme přesně, co měříme, nové poznatky pro lingvistiku. Nevýhody relativně nízká přesnost, relativně triviální.
Lingvisticky neinterpretovatelné metody Výhody: vysoká přesnost, úspěšná aplikace zejména v určování autorství a automatické klasifikaci textů. Nevýhody nevíme přesně co měříme, minimální poznatky pro lingvistiku.
Výběrový soubor aneb Korpus Hledisko kvantitativní Hledisko kvalitativní
Výběrový soubor aneb Korpus Neexistuje reprezentativní korpus žádného jazyka, navzdory tvrzení ČNK: Korpus SYN2005 je synchronní reprezentativní korpus současné psané češtiny. SYN2000 je synchronní korpus, to znamená, že je v něm zachycen současný český jazyk. Do korpusu jsou ovšem zařazena i významná díla české literatury, která vznikla před rokem 1990 (například Krakatit Karla Čapka, nebo Zbabělci Josefa Škvoreckého).
Korpus SYN 2000 60 % 25 % 15 % publicistika odborná literatura beletrie
Korpus SYN 2005 40 % beletrie 33 % publicistika 27 % odborná literatura
Vhodný výběrový soubor Pouze specializovaný korpus může sloužit jako relevantní vzorek pro výzkum. Např. texty jediného autora v žánrové analýze.
Co je text? ČNK: Tento korpus (SYN2000) je vytvořený z celých textů. Je sbírka povídek, básní či celý román jeden text? A jak je to s kolektivním autorstvím? Mnoho textů je stejný mix jako korpus!
Jaký text je vhodný pro analýzu jazyka? Novinový článek? Beletrie? Překlady? Mluvený text? Twitter? Blog? A jak je to s dramaty?
Proces vytváření novinového článku
Za text považuji Kapitolu románu. Povídku. Báseň. Dopis. Pohádku. Článek.
Přirozené vs. umělé jednotky Přirozené (foném, slabika, morfém, slovo) Umělé jednotky (n-gramy, délkové motivy) Něco mezi (grafémy, hreby)
Author s Multilevel N-gram Profile (AMNP) by George Mikros Word 3-grams Semantics Word 2-grams Syntax Character 3- grams Morphology Character 2-grams Phonology GEORGE MIKROS IQLA-GIAT Summer School in Quantitative Analysis of Textual Data University of Padua, 16-20 September 2013 16
Slovní bohatství Poměr různých slov v textu k celkové délce textu. ( ) vždy veselo bývalo v Kyjově, vždy veselo v Kyjově bude ( ) P. Bezruč: Kyjov TTR = V N = 6 10 =0.6
TTR Type-Token Ratio (TTR) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0 1000 2000 3000 4000 5000 6000 text size (N)
Eliminace vlivu délky textu A) omezení textu na prvních n slov. B) upravit rovnici pro výpočet. C) Něco mezi (MATTR).
Moving Average Type-Token Ratio (MATTR) Moving Average Type-Token Ratio (MATTR) MATTR L = N L i=1 V i L(N L + 1) N délka textu L délka okna Vi počet typů v okně
Vyhodnocení Statistický test: u = X 1 X 2 s 2 1 n1 +s 2 n2 X 1, X 2...aritmetický průměr skupiny S 1, S 2 směrodatná odchylka n 1, n 2 počet výsledků ve skupině
MATTR Moving Average Type-Token Ratio (MATTR) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0 1000 2000 3000 4000 5000 6000 text size (N)
Intuice vs. intersubjektivita Určete pořadí následujících žánrů podle slovního bohatství: o Román o Cestopis o Novinový sloupek o Dopis o Pohádka o Báseň o Odborná studie o Povídka
MATTR Slovní bohatství (MATTR) 0.8 0.79 0.78 0.77 0.76 0.75 0.74 cestopis sloupek povídka román dopis báseň studie pohádka
MATTR výsledky u-testu mezi žánry, signifikantní rozdíly (u 1,96) román povídka cestopis studie sloupek pohádka dopis román x povídka 1,35 x cestopis 3,31 1,57 x studie 5,04 5,78 7,64 x sloupek 1,63 0,24 1,33 6,05 x pohádka 7,14 7,68 9,04 3,13 7,88 x dopis 0,07 1,10 2,47 4,01 1,31 6,25 x báseň 1,00 1,44 1,99 0,94 1,54 2,57 0,94
Intuice vs. intersubjektivita Jazyk totality, např. newspeak v Orwellově románu Nineteen Eighty-Four. Určete pořadí novoročních a vánočních projevů československých a českých prezidentů podle slovního bohatství.
Prezidenti Masaryk Beneš Hácha Gottwald Zápotocký Novotný Svoboda Husák Havel Klaus Zeman
MATTR prezidenti 0.88 0.86 0.84 0.82 0.8 0.78 0.76 0.74 0.72 0.7 0.68
MATTR prezidenti 0.88 0.86 0.84 0.82 0.8 0.78 0.76 0.74 0.72 0.7 0.68
Moving Window Type-Token Ratio (MWTTR)
% Výsledné hodnoty MWTTRD v žánrech. 0.1 0.09 0.08 0.07 0.06 0.05 0.04 román povídka cestopis studie sloupek pohádka dopis báseň 0.03 0.02 0.01 0 60 65 70 75 80 85 90 počet typů v 100 tokenech
Quantitative Index Text Analyzer QUITA
Literatura Čech, R., Popescu, I. I., Altmann, G. (2014). Metody kvantitativní analýzy (nejen) básnických textů. Olomouc: Univerzita Palackého v Olomouci. Čech, R. (2014). Jen popis čísly? Perspektivy korpusové lingvistiky. Naše řeč, 97(4 5), s. 171 184. Chromý, J. (2014). Korpus a reprezentativnost. Naše řeč 97(4 5), s. 185 193. Kubát, M., Matlach, V., Čech, R. (2014). QUITA Quantitative Index Text Analyzer. Lüdenscheid: RAM. Mikros, G. K., & Perifanos, Kostas. (2013). Authorship attribution in Greek tweets using multilevel author s n- gram profiles. In: E. Hovy, V. Markman, C. H. Martell & D. Uthus (eds.), Papers from the 2013 AAAI Spring Symposium "Analyzing Microtext", 25 27 March 2013, Stanford, California. Palo Alto, California: AAAI Press, s. 17 23.
Literatura Popescu, I. I., Altmann, G., Grzybek, P., Jayaram, B. D., Köhler, R., Krupa, V., Mačutek, J., Pustet, R., Uhlířová, L., Vidya, M. N. (2009). Word frequency studies. Berlin/New York: Mouton de Gruyter. Wimmer, G., Altmann, G., Hřebíček, L., Ondrejovič, S., Wimmerová, S. (2003). Úvod do analýzy textov. Bratislava: Veda. Těšitelová, M. (1987). Kvantitativní lingvistika. Praha: SPN.
Literatura Covington, M. A., McFall J. D. (2008). The Moving-Average Type-Token Ratio. Presented as a poster at the Annual Meeting of the Linguistic Society of America. Covington, M. A., McFall J. D. (2010). Cutting the Gordian Knot: The Moving-Average Type-Token Ratio (MATTR). Journal of Quantitative Linguistics, 17(2), 94 100. Köhler, R., Gale,M. (1993): Dynamic Aspects of Text Characteristics. In L.Hřebíček, G. Altmann (eds.) Quantitative Text Analysis. Trier, Wissenschaftlicher Verlag, 46 53. Milička, J. (2013). MaWaTaTaRaD. Prague. (Software) Scott, M. (2013). WordSmith Tools. Liverpool: Lexical Analysis Software. Kubát, M., Milička, J. (2013). Vocabulary Richness Measure in Genres. Journal of Quantitative Linguistics, 20(4), 339 349.