stylometrický software quita miroslav kubát ff ou ostrava js ostrava

Podobné dokumenty
Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

UNIVERZITA PALACKÉHO

Tematická koncentrace textu. Radek Čech

Frekvence Korelační analýza Jazykové zákony

Compression of a Dictionary

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Úvod do kvantitativní lingvistiky. Radek Čech

Faktorované překladové modely. Základní informace

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Oxide, oxide, co po tobě zbyde

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Natural Language Toolkit

BTS and Development of Confidence Indicators

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku

Uni- and multi-dimensional parametric tests for comparison of sample results

Tematická koncentrace textu některé aspekty autorského stylu Ladislava Jehličky 1

ŽÁCI GYMNÁZIA A MÍRA JEJICH ZÁVISLOSTI NA POČÍTAČOVÝCH HRÁCH

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

HODNOCENÍ ZDRAVOTNÍCH RIZIK Z POŽITÍ A DERMÁLNÍHO KONTAKTU NAFTALENU V ŘECE OSTRAVICI

Zkoumání lidské psychiky, základní metody a postupy. PaedDr. Mgr. Hana Čechová

4 TABULKY ZÁKLADNÍCH STATISTICKÝCH CHARAKTE- RISTIK TÌLESNÝCH ROZMÌRÙ TABLES OF BASIC STATISTICAL CHARACTERISTICS OF BODY PARAMETERS

Automatická post-editace výstupů frázového strojového překladu (Depfix)

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Forenzní lingvistika. jazykověda ve službách vyšetřování

Problematika hluchoty: aktuální otázky 2. hodina ( ) FORENZNÍ LINGVISTIKA JAZYKOVĚDA VE SLUŽBÁCH VYŠETŘOVÁNÍ

Průzkum paralelních dvojjazyčných textů v otázce určení autorství staročeského překladu

, ČVUT v Praze Připravil: Ing. Zdeněk Patočka Letecké laserové skenování a jeho využití v inventarizaci lesa


IA161 Pokročilé techniky zpracování přirozeného jazyka

Porovnání předpovídané zátěže se zátěží skutečnou (podle modelu III-C BMP ČHMÚ) Martin Novák 1,2

APPLE IPAD IN EDUCATION. Jan LAVRINČÍK

Dolování z textu. Martin Vítek

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

Digitální učební materiál

VLIV METEOROLOGICKÝCH PODMÍNEK NA ZNEČIŠTĚNÍ OVZDUŠÍ SUSPENDOVANÝMI ČÁSTICEMI

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Veřejné licence, šedá literatura a vědecká data. Matěj Ústav práva a technologií cyber.law.muni.cz flip.law.muni.

Jak se stát přívětivým úřadem aneb práce s open daty ve státní správě. Open Data Expo

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Foster Bohemia s.r.o. Laboratoř měření imisí Immission Measurement Laboratory. Mezi Rolemi 54/10, Praha 5, Jinonice, Česká republika

Jiří DOSTÁL Univerzita Palackého v Olomouci, Pedagogická fakulta, KTEIV. Interaktivní tabule ve vzdělávání

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

Substituční šifry a frekvenční analýza. Mgr. Radim Janča ijanca@fit.vutbr.cz

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

InControl Driver for Advantech I/O Cards

TANEČNÍ SDRUŽENÍ ČESKÉ REPUBLIKY

Stav podnikové bezpečnosti, Globální zpráva Jakub Jiříček, Symantec ČR a SR

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ DISERTAČNÍ PRÁCE

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

The Czech education system, school

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Student: Draw: Convex angle Non-convex angle

Jiří Chudoba Fyzikální ústav AV ČR, v.v.i.

Evropské výběrové šetření o zdravotním stavu v ČR - EHIS CR Index tělesné hmotnosti, fyzická aktivita, spotřeba ovoce a zeleniny

Configuration vs. Conformation. Configuration: Covalent bonds must be broken. Two kinds of isomers to consider

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

OTDR. (Optical time-domain reflectometer) Uživatelský manuál

User manual SŘHV Online WEB interface for CUSTOMERS June 2017 version 14 VÍTKOVICE STEEL, a.s. vitkovicesteel.com

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

PSANÍ. I am interested in applying for the post of full-time secretary in TUMI Enterprises.

Čipové karty Lekařská informatika

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

Summer semester

Testování malých senzorů ČO na Observatoři Tušimice

CHAPTER 5 MODIFIED MINKOWSKI FRACTAL ANTENNA

IBM SPSS Decision Trees

Analýza staročeské morfologie v Excelu

KUZMA. Zákaznický ceník platný od května 2014 včetně DPH 21% I.Tonearms

Předmluva ke třetímu vydání Předmluva k českému vydání Co je to marketingový výzkum? Pátrání po marketingových rozhodnutích...

Dynamic programming. Optimal binary search tree

Zelený produkt automobilek a jeho vnímání různými generacemi českých spotřebitelů EVA JADERNÁ, MARTIN MLÁZOVSKÝ

PROČ SE V ZIMĚ SOLÍ ULICE?

Angličtina v matematických softwarech 2 Vypracovala: Mgr. Bronislava Kreuzingerová

7 LET LED TRUBICE VALTAVALO G4. valtavalo ZÁRUKY PODROBNÁ TECHNICKÁ DATA LED TRUBIC G4

Vytvoření pokročilé Fotogalerie v Drupalu - Views

Postup objednávky Microsoft Action Pack Subscription


NĚMECKÝ JAZYK A LITERATURA (jednooborové navazující magisterské studium) N 7310 Filologie

SPOLUPRÁCE - KOORDINÁTOR/KA ZAHRANIČNÍCH KURZŮ

Odhad dlouhodobého a hloubkového geochemického vývoje důlních vod rosicko-oslavanské uhelné pánve ve vztahu k optimalizaci nutného čištění důlních vod

Jak správně používat gama analýzu?


5 LET LED TRUBICE VALTAVALO E3. valtavalo ZÁRUKY PODROBNÁ TECHNICKÁ DATA LED TRUBIC E3

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

Windows na co se soustředit

TEMATICKÁ KONCENTRACE TEXTU V ČEŠTINĚ. Radek Čech

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Introduction to MS Dynamics NAV

Windows - bezplatné služby pro školy. Jakub Vlček Specialist Microsoft Corporation

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

1. Přehled cizojazyčných a vícejazyčných korpusů

Info schůzka. 16-Jan-16 Open Day - Dept. of English 1

Petr Plecháč Robert Ibrahim (Institute of Czech Literature AS CR) DATABASE OF CZECH VERSE

DUM je součástí uceleného logického celku Rozvíjení, procvičování, upevňování gramatiky a slovní zásoby v 8. ročníku.

Transkript:

stylometrický software quita miroslav kubát ff ou ostrava js 9. 3. 2016 ostrava

Katedra českého jazyka Vás zve na workshop Quantitative Index Text Analyzer pod vedením Miroslava Kubáta a Radka Čecha 18. 3. 2016 15.30 17.00 E-206 Notebooky s sebou! Software QUITA si nainstalujte předem z oltk.upol.cz/software

Jak zkoumat styly? Kvalitativně Kvantitativně

Proč kvantitativně? Objektivnost (při opakovaném měření vždy stejné výsledky). Rychlost (počítačové zpracování dat). Možnost pracovat s velkým množstvím dat. Jednoduchost.

Nevýhody kvantitativních metod Zjednodušování zkoumaných jevů. Limity strojového zpracování dat. Nekomplexní pohled.

Stylometrie Měří styly pomocí kvantitativních metod. Klasifikace žánrů, určování autorství, literární analýzy, forenzní lingvistika. V české lingvistice se systematicky problematikou zabývala M. Těšitelová, Kvantitativní charakteristiky současné češtiny (1985).

Co můžeme měřit? délka věty délka slova slovní bohatství tematická koncentrace aktivita a deskriptivita distribuce slovních druhů frekvence jakýchkoliv jednotek

Existuje autorský styl?

Biometrické metody: otisky prstů

Biometrické metody: DNA

Biometrické metody: duhovka

Antropometrie: Alphonse Bertillon

Stylometrické metody:???

Určování autorství Stylometrický výzkum již od 19. stol. Řešení sporného autorství. Identifikace autorství anonymních textů. Detekce plagiátorství. Forenzní lingvistika.

Určování autorství Každý autor má specifický styl. Tento styl můžeme pomocí různých rysů kvantitativně zachytit. Použití mnohých rysů je nevědomé. Zpravidla se analyzuje více charakteristik zároveň.

Klasické příklady Napsal Homér Ilias a Odysseu? Napsal Pavel všechny NZ listy? Je Shakespeare autorem všech připisovaných her?

Listy federalistů 85 článků hájících ratifikaci US ústavy (1787 1788). Autorství bylo přísně střeženo. Teprve v 60. letech 20. stol. pomocí stylometrických metod bylo definitivně rozpoznáno autorství jednotlivých článků.

Theodore Kaczynski Unabomber (University and Airline bomber). Americký terorista rozesílal v letech 1978 1995 poštou bomby. Teprve podle stylu jeho dopisu FBI (Unabomberův manifest) byl po 17 letech odhalen a usvědčen.

Primary Colors V roce 1996 vyšel klíčový román (roman à clef) Primary Colors. Anonymní autor kritizoval první prezidentskou kampaň Billa Clintona v roce 1992. Podezřelý Joe Klein byl usvědčen stylometrickou analýzou Donalda Fostera.

Současná stylometrie George Mikros Patrick Juola Arjuna Tuzzi Donald Foster Gabriel Altmann Ioan Iovitz Popescu Radek Čech

Stylometrické metody Lingvisticky interpretovatelné (slovní bohatství, tematická koncentrace, délka tokenu, vzdálenosti sloves, aktivita & deskriptivita textu). Lingvisticky neinterpretovatelné (klastrové analýzy n-gramů či nejfrekventovanějších slov apod.)

Lingvisticky interpretovatelné metody Výhody: víme přesně co měříme, nové poznatky pro lingvistiku. Nevýhody relativně nízká přesnost, relativně triviální.

Lingvisticky neinterpretovatelné metody Výhody: vysoká přesnost, úspěšná aplikace zejména v určování autorství a automatické klasifikaci textů. Nevýhody nevíme přesně co měříme, minimální poznatky pro lingvistiku.

N-gramy Sekvence jednotek o dané délce (n). Character n-grams (n=2) This is a text [Th], [hi], [is], [s_], [_a], [a_], [_t], [te], [ex], [xt] Word n-grams (n=2) This is a bigger text [this is], [is a], [a bigger], [bigger text]

Author s Multilevel N-gram Profile (AMNP) by George Mikros Word 3-grams Semantics Word 2-grams Syntax Character 3- grams Morphology Character 2-grams Phonology GEORGE MIKROS IQLA-GIAT Summer School in Quantitative Analysis of Textual Data University of Padua, 16-20 September 2013 25

Stylometrické nástroje QUITA (Quantitative Index Text Analyzer) Stylo JGAAP (Java Graphical Authorship Attribution Program) WordSmith Tools AntConc

Stylo

Stylo

WordSmith Tools

JGAAP

Quantitative Index Text Analyzer: QUITA

Raw Text Raw text is "as is" sent to Tokenizer. Tokenizer Creates an array of tokens. Lemmatizer QUITA asks lemmatizer to lemmatize given token. Tokens are passed to lemmatizer sepparately one-by-one without any other context. POS Tagger POS Tagger receives array of lemmas. QUITA asks POS tagger to tag each lemma. Lemmas are passed to POS tagger sepparately one-to-one without any other context. Final Output This final output is used for computing indices or might be before used for post-processing purposes to post-processor.

Text creating new text loading from PC indicators to compute Settings tokenizer lemmatizer POS tagger n-grams text lenght reduction Results table chart text comparison project comparison

Indicators to compute Type-Token Ratio (TTR) h-point (h) R 1 R 4 Repeat Rate (RR) Relative Repeat Rate of McIntosh (RR mc ) Hapax Legomenon Percentage (HL) Lambda (Λ) Gini Coefficient (G) Curve length (L) Curve length R Indicator (R) Entropy (H) Adjusted Modulus (A) Verb Distances (VD) Activity (Q) & Descriptivity (D) Writer s View (α) Average Tokens Length (ATL) Thematic Concentration (TC) Secondary Thematic Concentration (STC) Proportional Thematic Concentration

Výsledky indexů Output Data Frekvenční slovník (slovní tvary, lemmata, n-gramy) Distribuce POS Spektrum délky tokenu Tematická slova Generování náhodných textů

Tabulky Export CSV(TSV) nebo clipboard

Statistické porovnání textů

Statistické porovnání korpusů

Chart Wizard

Zdroje Kubát, M., Matlach, V., Čech, R. (2014). QUITA Quantitative Index Text Analyzer. Lüdenscheid: RAM. Matlach, V. (2014). Kvantitativně lingvistický software. Olomouc (diplomová práce). [Dostupné online na http://theses.cz/id/fz87uj/thesis.pdf] oltk.upol.cz/software