stylometrický software quita miroslav kubát ff ou ostrava js ostrava

stylometrický software quita miroslav kubát ff ou ostrava js 9. 3. 2016 ostrava

Katedra českého jazyka Vás zve na workshop Quantitative Index Text Analyzer pod vedením Miroslava Kubáta a Radka Čecha 18. 3. 2016 15.30 17.00 E-206 Notebooky s sebou! Software QUITA si nainstalujte předem z oltk.upol.cz/software

Jak zkoumat styly? Kvalitativně Kvantitativně

Proč kvantitativně? Objektivnost (při opakovaném měření vždy stejné výsledky). Rychlost (počítačové zpracování dat). Možnost pracovat s velkým množstvím dat. Jednoduchost.

Nevýhody kvantitativních metod Zjednodušování zkoumaných jevů. Limity strojového zpracování dat. Nekomplexní pohled.

Stylometrie Měří styly pomocí kvantitativních metod. Klasifikace žánrů, určování autorství, literární analýzy, forenzní lingvistika. V české lingvistice se systematicky problematikou zabývala M. Těšitelová, Kvantitativní charakteristiky současné češtiny (1985).

Co můžeme měřit? délka věty délka slova slovní bohatství tematická koncentrace aktivita a deskriptivita distribuce slovních druhů frekvence jakýchkoliv jednotek

Existuje autorský styl?

Biometrické metody: otisky prstů

Biometrické metody: DNA

Biometrické metody: duhovka

Antropometrie: Alphonse Bertillon

Stylometrické metody:???

Určování autorství Stylometrický výzkum již od 19. stol. Řešení sporného autorství. Identifikace autorství anonymních textů. Detekce plagiátorství. Forenzní lingvistika.

Určování autorství Každý autor má specifický styl. Tento styl můžeme pomocí různých rysů kvantitativně zachytit. Použití mnohých rysů je nevědomé. Zpravidla se analyzuje více charakteristik zároveň.

Klasické příklady Napsal Homér Ilias a Odysseu? Napsal Pavel všechny NZ listy? Je Shakespeare autorem všech připisovaných her?

Listy federalistů 85 článků hájících ratifikaci US ústavy (1787 1788). Autorství bylo přísně střeženo. Teprve v 60. letech 20. stol. pomocí stylometrických metod bylo definitivně rozpoznáno autorství jednotlivých článků.

Theodore Kaczynski Unabomber (University and Airline bomber). Americký terorista rozesílal v letech 1978 1995 poštou bomby. Teprve podle stylu jeho dopisu FBI (Unabomberův manifest) byl po 17 letech odhalen a usvědčen.

Primary Colors V roce 1996 vyšel klíčový román (roman à clef) Primary Colors. Anonymní autor kritizoval první prezidentskou kampaň Billa Clintona v roce 1992. Podezřelý Joe Klein byl usvědčen stylometrickou analýzou Donalda Fostera.

Současná stylometrie George Mikros Patrick Juola Arjuna Tuzzi Donald Foster Gabriel Altmann Ioan Iovitz Popescu Radek Čech

Stylometrické metody Lingvisticky interpretovatelné (slovní bohatství, tematická koncentrace, délka tokenu, vzdálenosti sloves, aktivita & deskriptivita textu). Lingvisticky neinterpretovatelné (klastrové analýzy n-gramů či nejfrekventovanějších slov apod.)

Lingvisticky interpretovatelné metody Výhody: víme přesně co měříme, nové poznatky pro lingvistiku. Nevýhody relativně nízká přesnost, relativně triviální.

Lingvisticky neinterpretovatelné metody Výhody: vysoká přesnost, úspěšná aplikace zejména v určování autorství a automatické klasifikaci textů. Nevýhody nevíme přesně co měříme, minimální poznatky pro lingvistiku.

N-gramy Sekvence jednotek o dané délce (n). Character n-grams (n=2) This is a text [Th], [hi], [is], [s_], [_a], [a_], [_t], [te], [ex], [xt] Word n-grams (n=2) This is a bigger text [this is], [is a], [a bigger], [bigger text]

Author s Multilevel N-gram Profile (AMNP) by George Mikros Word 3-grams Semantics Word 2-grams Syntax Character 3- grams Morphology Character 2-grams Phonology GEORGE MIKROS IQLA-GIAT Summer School in Quantitative Analysis of Textual Data University of Padua, 16-20 September 2013 25

Stylometrické nástroje QUITA (Quantitative Index Text Analyzer) Stylo JGAAP (Java Graphical Authorship Attribution Program) WordSmith Tools AntConc

WordSmith Tools

Quantitative Index Text Analyzer: QUITA

Raw Text Raw text is "as is" sent to Tokenizer. Tokenizer Creates an array of tokens. Lemmatizer QUITA asks lemmatizer to lemmatize given token. Tokens are passed to lemmatizer sepparately one-by-one without any other context. POS Tagger POS Tagger receives array of lemmas. QUITA asks POS tagger to tag each lemma. Lemmas are passed to POS tagger sepparately one-to-one without any other context. Final Output This final output is used for computing indices or might be before used for post-processing purposes to post-processor.

Text creating new text loading from PC indicators to compute Settings tokenizer lemmatizer POS tagger n-grams text lenght reduction Results table chart text comparison project comparison

Indicators to compute Type-Token Ratio (TTR) h-point (h) R 1 R 4 Repeat Rate (RR) Relative Repeat Rate of McIntosh (RR mc ) Hapax Legomenon Percentage (HL) Lambda (Λ) Gini Coefficient (G) Curve length (L) Curve length R Indicator (R) Entropy (H) Adjusted Modulus (A) Verb Distances (VD) Activity (Q) & Descriptivity (D) Writer s View (α) Average Tokens Length (ATL) Thematic Concentration (TC) Secondary Thematic Concentration (STC) Proportional Thematic Concentration

Výsledky indexů Output Data Frekvenční slovník (slovní tvary, lemmata, n-gramy) Distribuce POS Spektrum délky tokenu Tematická slova Generování náhodných textů

Tabulky Export CSV(TSV) nebo clipboard

Statistické porovnání textů

Statistické porovnání korpusů

Chart Wizard

Zdroje Kubát, M., Matlach, V., Čech, R. (2014). QUITA Quantitative Index Text Analyzer. Lüdenscheid: RAM. Matlach, V. (2014). Kvantitativně lingvistický software. Olomouc (diplomová práce). [Dostupné online na http://theses.cz/id/fz87uj/thesis.pdf] oltk.upol.cz/software