The Theory behind Keyword Analysis. Václav Cvrček Workshop on Quantitative Text Analysis for SSH Brown University April 8, 2016

Podobné dokumenty
Korpusové přístupy k analýze diskurzu. Václav Cvrček 36. studentský workshop Žďárek 29. dubna 2016

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Střední škola obchodní, České Budějovice, Husova 9, VY_INOVACE_ANJ_741. Škola: Střední škola obchodní, České Budějovice, Husova 9

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

Svět kolem nás Understanding the Context

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

CZ.1.07/1.5.00/

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

Social Media a firemní komunikace

Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list

Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

CZ.1.07/1.5.00/

II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách

Co vím o Ázerbájdžánu?

DC circuits with a single source

Litosil - application

ANGLICKÁ KONVERZACE PRO STŘEDNĚ POKROČILÉ

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Introduction to MS Dynamics NAV

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

Název projektu: Multimédia na Ukrajinské

Přítomný čas prostý/ průběhový. Present simple/ present continuous. Výhradní výukový materiál portálu onlinejazyky.cz

MEDIA RESEARCH RATINGS

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

VY_22_INOVACE_číslo přílohy 1_AJ_6A_29. Úvodní část seznámení s cílem hodiny pohádka The Ugly Ducklings

EU peníze středním školám digitální učební materiál

MEDIA RESEARCH RATINGS

Digitální učební materiál

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

CZ.1.07/1.5.00/

Syntactic annotation of a second-language learner corpus

WORKSHEET 1: LINEAR EQUATION 1

Název projektu: Multimédia na Ukrajinské

TEMATICKÝ PLÁN. Literatura: Project 2 - T. Hutchinson, OXFORD

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Digitální učební materiál

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

II_ _Listening Pracovní list č. 2.doc II_ _Listening Pracovní list č. 3.doc II_ _Listening Řešení 1,2.doc

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Compression of a Dictionary

MEDIA RESEARCH RATINGS

CZ.1.07/1.5.00/

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

MEDIA RESEARCH RATINGS

CZ.1.07/1.5.00/

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

READERS OF MAGAZÍN DNES + TV

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text

MEDIA RESEARCH RATINGS

MEDIA RESEARCH RATINGS

18.VY_32_INOVACE_AJ_UMB18, Frázová slovesa.notebook. September 09, 2013

Čtvrtý Pentagram The fourth Pentagram

Název projektu: Multimédia na Ukrajinské

CZ.1.07/1.5.00/

Název projektu: Multimédia na Ukrajinské

READERS OF MAGAZÍN DNES + TV

Vánoční sety Christmas sets

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

AJ 3_16_Prague.notebook. December 20, úvodní strana

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

MEDIA RESEARCH RATINGS

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

TEMATICKÝ PLÁN. Literatura: Project 2 - T. Hutchinson, OXFORD

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová

READERS OF MAGAZÍN DNES + TV

Content Language level Page. Mind map Education All levels 2. Go for it. We use this expression to encourage someone to do something they want.

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Theme 6. Money Grammar: word order; questions

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_14_AJ_G

Aktuální trendy ve výuce a testování cizích jazyků v akademickém prostředí

READERS OF MAGAZÍN DNES + TV

AIC ČESKÁ REPUBLIKA CZECH REPUBLIC

SSOS_AJ_3.18 British education

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

CZ.1.07/1.5.00/

VOŠ, SPŠ automobilní a technická. Mgr. Marie Šíchová. At the railway station

II_2-01_39 ABBA,Happy New Year, řešení II_2-01_39 ABBA,Happy New Year, for students

GREAT BRITAIN. III/2 Inovace a zkvalitnění výuky prostřednictvím ICT. Anglický jazyk Třída 3.A Téma hodiny Druh materiálu

READERS OF MAGAZÍN DNES + TV

READERS OF MAGAZINE DOMA DNES

READERS OF MF DNES, LIDOVÉ NOVINY AND METRO

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Transkript:

The Theory behind Keyword Analysis Václav Cvrček Workshop on Quantitative Text Analysis for SSH Brown University April 8, 2016

IntroductionIj

Introduction Text interpretation at the core of the humanities mission

Introduction Text interpretation at the core of the humanities mission our interpretation + other people s interpretation

Introduction Text interpretation at the core of the humanities mission our interpretation + other people s interpretation interpretation with minimum amount of extra-textual information and intuition

Introduction Text interpretation at the core of the humanities mission our interpretation + other people s interpretation interpretation with minimum amount of extra-textual information and intuition frame of reference, scheme, expectations, communicative norms

Introduction Text interpretation at the core of the humanities mission our interpretation + other people s interpretation interpretation with minimum amount of extra-textual information and intuition frame of reference, scheme, expectations, communicative norms there is no objective interpretation depends on point of view (recipient)

Language corpusij

What is a corpus? sample of naturally occurring written texts or transcribed speeches stored electronically (searchable) basis for linguistic analysis and description

CADS = corpus assisted discourse studies A Needle in a Haystack (collaborative research project of Brown and Charles University) how language reflects the changing nature of the society?

CADS = corpus assisted discourse studies A Needle in a Haystack (collaborative research project of Brown and Charles University) how language reflects the changing nature of the society? how different is the interpretation of the contemporary and historical reader?

CADS = corpus assisted discourse studies A Needle in a Haystack (collaborative research project of Brown and Charles University) how language reflects the changing nature of the society? how different is the interpretation of the contemporary and historical reader? how can we test the limits of the corpus-based quantitative analysis of text? http://brown.edu/research/projects/needle-in-haystack/

Prominent itemsij

Interpretation and prominence How do we start with interpretation? what is striking in a text? topics, motives, themes expressed by words interaction between words, topics function/meaning of words, topics minimize researcher bias

Why don t you simply count them? Top 10 lemmas: the be of a and to he it have in the and to be of we that a our in the and be of to a he have in they

Why don t you simply count them? Top 10 lemmas: the be of a and to he it have in the and to be of we that a our in the and be of to a he have in they G. Orwell: 1984 SOTU 2009 2016 JRRT: Hobbit

Thematic concentration content words with abnormal frequency

Thematic concentration content words with abnormal frequency Zipf s word-frequency distribution

Thematic concentration content words with abnormal frequency Zipf s word-frequency distribution h-point: rank = frequency

Thematic concentration content words with abnormal frequency Zipf s word-frequency distribution h-point: rank = frequency h-point approximately separates autosemantic and synsemantic branch

Thematic concentration content words with abnormal frequency Zipf s word-frequency distribution h-point: rank = frequency h-point approximately separates autosemantic and synsemantic branch content words above the h-point are TC words

Thematic concentration content words with abnormal frequency Zipf s word-frequency distribution h-point: rank = frequency h-point approximately separates autosemantic and synsemantic branch content words above the h-point are TC words Popescu & Altmann 2006

Thematic concetration

TC words 1984: Winston, say, know, Party, face, word, O Brien, seem, look, never, think, moment, always, hand, year, way, long, now, eye, day, possible, war SOTU: year, job, work, America, new, people, american, know, need, help, country, business, time, world, economy, family, right, tax, Congress, nation Hobbit: come, go, Bilbo, see, dwarves, time, long, make, think, great, good, know, far, still, goblin, find, way, look, little, light

TC: discussion Pros and cons of TC words + objective based on frequency distribution

TC: discussion Pros and cons of TC words + objective based on frequency distribution + text analytical applications: comparing texts according to their thematic compactness

TC: discussion Pros and cons of TC words + objective based on frequency distribution + text analytical applications: comparing texts according to their thematic compactness + no reference corpus required

TC: discussion Pros and cons of TC words + objective based on frequency distribution + text analytical applications: comparing texts according to their thematic compactness + no reference corpus required - set of TC words is invariant

TC: discussion Pros and cons of TC words + objective based on frequency distribution + text analytical applications: comparing texts according to their thematic compactness + no reference corpus required - set of TC words is invariant - interpretation without interpretor interpretation always depends on the point of view

Keyword analysisij

Keywords and KWA Keywords homonymous term 1 1 For other meanings see e.g. Williams 1976 or Wierzbicka 1997.

Keywords and KWA Keywords homonymous term 1 words with higher relative frequency in a text 1 For other meanings see e.g. Williams 1976 or Wierzbicka 1997.

Keywords and KWA Keywords homonymous term 1 words with higher relative frequency in a text based on comparison with reference corpus 1 For other meanings see e.g. Williams 1976 or Wierzbicka 1997.

Keywords and KWA Keywords homonymous term 1 words with higher relative frequency in a text based on comparison with reference corpus significance testing: χ 2 test, log-likelihood (G) test, Fisher test 1 For other meanings see e.g. Williams 1976 or Wierzbicka 1997.

Keywords and KWA Keywords homonymous term 1 words with higher relative frequency in a text based on comparison with reference corpus significance testing: χ 2 test, log-likelihood (G) test, Fisher test A word-form which recurs within the text in question will be more likely to be key in it. (Scott Tribble 2006) 1 For other meanings see e.g. Williams 1976 or Wierzbicka 1997.

Obtaining keywords algorithm Procedure count frequency of each word most frequent words are the, of, was

Obtaining keywords algorithm Procedure count frequency of each word most frequent words are the, of, was compare it with a frequency of the same word in a corpus

Obtaining keywords algorithm Procedure count frequency of each word most frequent words are the, of, was compare it with a frequency of the same word in a corpus use statistical tests: χ 2, log-likelihood or Fisher to find out if the difference is significant

Obtaining keywords algorithm Procedure count frequency of each word most frequent words are the, of, was compare it with a frequency of the same word in a corpus use statistical tests: χ 2, log-likelihood or Fisher to find out if the difference is significant interpret top X most prominent keywords

Obtaining keywords algorithm Procedure count frequency of each word most frequent words are the, of, was compare it with a frequency of the same word in a corpus use statistical tests: χ 2, log-likelihood or Fisher to find out if the difference is significant interpret top X most prominent keywords Keywords: Words which appear in a text or corpus that are statistically significantly more frequent than would be expected by chance when compared to a corpus which is larger or of equal size.

Note on significance and effect size Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size)

Note on significance and effect size Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Metrics used to calculate keyness significance level of certainty we have that the difference exists (N.B. χ 2 test is asymptotically true )

Note on significance and effect size Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Metrics used to calculate keyness significance level of certainty we have that the difference exists (N.B. χ 2 test is asymptotically true ) relevance importance of the difference (for interpretation)

Note on significance and effect size Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Metrics used to calculate keyness significance level of certainty we have that the difference exists (N.B. χ 2 test is asymptotically true ) relevance importance of the difference (for interpretation) crucial for the top X approach:

Note on significance and effect size Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Metrics used to calculate keyness significance level of certainty we have that the difference exists (N.B. χ 2 test is asymptotically true ) relevance importance of the difference (for interpretation) crucial for the top X approach: 1. identification of KWs statistical tests

Note on significance and effect size Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Metrics used to calculate keyness significance level of certainty we have that the difference exists (N.B. χ 2 test is asymptotically true ) relevance importance of the difference (for interpretation) crucial for the top X approach: 1. identification of KWs statistical tests 2. ranking of KWs task for a different metric

DIN coefficient Variation on the Sørensen Dice s coefficient 2 : DIN = 100 RelFq(Target) RelFq(Reference) RelFq(Target) + RelFq(Reference) values of DIN 2 cf. Hofland Johansson (1982).

DIN coefficient Variation on the Sørensen Dice s coefficient 2 : DIN = 100 RelFq(Target) RelFq(Reference) RelFq(Target) + RelFq(Reference) values of DIN -100 (= when a word is present only in the RefC) 2 cf. Hofland Johansson (1982).

DIN coefficient Variation on the Sørensen Dice s coefficient 2 : DIN = 100 RelFq(Target) RelFq(Reference) RelFq(Target) + RelFq(Reference) values of DIN -100 (= when a word is present only in the RefC) 0 (= when a word occurs equally in target and RefC) 2 cf. Hofland Johansson (1982).

DIN coefficient Variation on the Sørensen Dice s coefficient 2 : DIN = 100 RelFq(Target) RelFq(Reference) RelFq(Target) + RelFq(Reference) values of DIN -100 (= when a word is present only in the RefC) 0 (= when a word occurs equally in target and RefC) 100 (= when a word is present only in the target corpus) 2 cf. Hofland Johansson (1982).

DIN coefficient Variation on the Sørensen Dice s coefficient 2 : DIN = 100 RelFq(Target) RelFq(Reference) RelFq(Target) + RelFq(Reference) values of DIN -100 (= when a word is present only in the RefC) 0 (= when a word occurs equally in target and RefC) 100 (= when a word is present only in the target corpus) represents the proportion of the difference of relative frequencies to their mean ( 50) 2 cf. Hofland Johansson (1982).

DIN coefficient Variation on the Sørensen Dice s coefficient 2 : DIN = 100 RelFq(Target) RelFq(Reference) RelFq(Target) + RelFq(Reference) values of DIN -100 (= when a word is present only in the RefC) 0 (= when a word occurs equally in target and RefC) 100 (= when a word is present only in the target corpus) represents the proportion of the difference of relative frequencies to their mean ( 50) identical value of DIN for words appearing in a target text only (!) 2 cf. Hofland Johansson (1982).

DIN coefficient Variation on the Sørensen Dice s coefficient 2 : DIN = 100 RelFq(Target) RelFq(Reference) RelFq(Target) + RelFq(Reference) values of DIN -100 (= when a word is present only in the RefC) 0 (= when a word occurs equally in target and RefC) 100 (= when a word is present only in the target corpus) represents the proportion of the difference of relative frequencies to their mean ( 50) identical value of DIN for words appearing in a target text only (!) useful for ranking of KWs (not for their identification!) 2 cf. Hofland Johansson (1982).

Example 1: Grammatical words Keywords from all Husák s New Year s Addresses 0 100 200 300 400 500 600 0 100 200 300 400 500 600 All NYA (gram. words highlighted) Dice (rank) Log likelihood (rank) 1987 spoluobčané 1986 rozkvétala přičiňme střízlivým domovům vzkvétala pozdravuji vstupujeme 1983 drazí 1982 dařila udělejme přeji připomeneme dopady uplynulým xvii pokročili novoroční zamýšlíme zdravím pohodu pohodě svědomitou posíláme optimismem poděkovat xvi vzestupný opíráme generacím přikládáme kvalitněji spokojený vážení náročně vašim zdravíme uplynulý přátelé důvěrou opravňují nejspolehlivější rozvíjelo prožili tvořivá 1981 hodnotíme vzpomínat plodem nestraníků výhodnou nastávajícím rodinném vážené upevnili podporujeme přátele soudružky poctivou opravňuje spokojenost realisticky srdečně energičtěji přispěli nadcházejícím odvrácení díváme spokojenosti bratrskému přátelům odhodláním klademe efektivněji dialogu upřímně osvobozování udrželi uplynulého oceňujeme rozkvět prošli činorodé obětavá vykonanou začneme všestranná vážíme obětavé hrozby tvořivou připomněli vyvrcholení Úspěšně přejeme jdeme obav věříme spolehlivou mírový příslušníkům vstupu uvědomujeme hrdí školských dynamiku jistot osmé prahu usilujeme prostá chci uplynulém připomínat přáteli ústavech historickými spokojeně vykonali odhodláni konstruktivní občanům tužby vyspělou pramení jménem přáním osvobozenecký pozdravy hranicemi vůlí inteligenci pozitivních odpovědně přestavbě složitá rozloučili dobrým horečného měny důstojně rovnováhu jistoty slabá kontinentě bratrský rokem považujeme podíleli šťastného dějinné hladiny poctivé dovolte děkuji štěstí složitou Čechů vyspělost nadcházející náročné pevným překonávat šťastný zastupitelských rozdílným slováků národností vítěznou pozdravil spojenectví desetiletí katastrofy upřímné dnešním angažovanost samozřejmé kriticky zlepšovat úspěšný zdraví pozvednout složitost přesvědčeni spravedlnost rozkvětu budeme Československá vyžadovat naléhavé ženám tvořivé jaderné hrdosti konfrontace zasedáních osobním naléhavě hovoříme dařilo hrdostí progresivních důvěry našim příznivý životě rolníkům společenství minulého sborů rozvíjela ústředního překážek vám stručně mládeži mírového zhodnotil společným vlast přesvědčen soudružské bratrskými osvobozeneckého otevřela mírových důvěra dělníkům pevné podnětem abyste metra obětavou celkově překonávání spojenci urychlení drahé potvrdily náročný zmařit můžeme vlasti přestavby odzbrojení uplynulých úsecích fronty uskutečňovat mírovému varšavské zajistili výsledkům dosažené zřízením Československo reálné spojeno Československa dopravě úseků podílí nového obětavě užívání službách uvolňování prohlubovat udržet aktivně překonání prohlubování zápasu všestranný krizových nejvyšších vzájemně ekonomiku nemálo světě pokrokovým nezbytná starat úspěšného zničení zápas žít usilovat uspokojením čelit továrnách rok občany vrstev zdravotnických důraz částech kultuře náročných vyžadují dobré 1978 pokračoval významných blaho všestranného odkazu svazem příznivé našeho podporuje bratrské energetické hospodařit vstříc smyslem museli přispívat široká jaderných životních solidaritu těžkosti státy úspěchů srdce pokroku radost správě příštích dalšími říci důkaz zdůraznit soudruzi odkaz socialistického složitých napětí bratrských události rovnosti právem prospěchu zlepšování vědomím minulém občanů vnější zdrojem dosáhli víme zdravotnictví život zabezpečit mírovou stupních dobrou všem stupňů plnou loňském uskutečňování láskou hodně zápase soužití vás lidstvo lépe socialistickými zřízení nimiž národně naší správnou armádou duchovní dobrých novém pevnou letošním kupředu prosinci sovětským povinnosti lidu záměry chceme upevňování současných složek sociálních výsledky ovzduší náš vývojem našich abychom potřebám přínos potvrzují perspektivy odhodlání československého všestranné všude roku krok vůle pracovišti hmotné pětiletky generace zásluhou významné republika nezávislosti aktivita československé stavbách společenský otevřeně pokračovat rychleji životní nadále budoucnosti řešit dobrá xiv mezinárodních pracovat dobrý bezpečnost společný podporu světem pracovištích vlastenectví abych cestou věnovat jsme cesta mírové přání národní lepší úspěchy rostoucí rozvoji dalšího pozitivní našimi máme života naše milióny rozvíjet výsledků zbrojení pokrok státu našemu důsledně návrhy podmínkách volby vztazích dalším šesté komunistické oblastech školství veškeré zeměmi občané roce ozbrojených zajištění sovětskou zlepšení jednoty zachování úsilí zájmům úroveň dalších inteligence závěry každém socialistických vysoce mezinárodním jednou postup díky vysokou nedostatků materiální úspěšně vývoj evropě příští kterém úkoly vše socialistická plní pracujícího potřebné krize upevnění rozvoj cestu odpovídá postupu jaký dalšímu svým společné mezinárodní program naši musíme výročí národů spolupráce mnoho ekonomického cíle hospodářství možností úrovně politika států bezpečnosti plně velkou kterým lidstva nás společnosti vědeckých splnění celém zájmu nedostatky rozvoje prací přátelství práci znovu našem míru svobody cen socialistické spolupráci politice tvůrčí problémů postavení dále sjezd výboru spolu všech problémy úkolů národy sociální hospodářského organizací potřeb politiku společenské země nových orgánů velký lid celého růstu vztahy celé další i plnění síly lidí nám zasedání sovětského pracujících řešení sil politiky pracovní svou sjezdu proto aby let svazu práce všechny které pro si a to strany ve s 1987 1986 1983 1982 1981 našim vám abyste 1978 našeho vstříc všem vás nimiž naší náš našich abychom abych našimi naše našemu veškeré každém díky kterém vše jaký svým naši kterým nás našem všech i nám svou proto aby všechny které pro si a to ve s

Tools for KWAIj

KWords http://kwords.korpus.cz

KWords: analysed text

KWords: list of keywords Two types of prominent units: keywords and thematic concentration

Dispersion plot SOTU 2016: terrorism economy

Keyword links Keyword links according to the size of the window Distant KW Links = KWs appearing in distant context (-15;-5) and (5;15); these KW links indicate that the themes represented by these KWs may form a discourse-semantic network

Keyword links Keyword links according to the size of the window Distant KW Links = KWs appearing in distant context (-15;-5) and (5;15); these KW links indicate that the themes represented by these KWs may form a discourse-semantic network Immediate KW Links (multi-word KWs) = co-occurrence of two or more KWs within immediate or near context (-2;2); these adjacent KW may signal multi-word KW unit (e.g. American people, better politics)

Keyword links Keyword links according to the size of the window Distant KW Links = KWs appearing in distant context (-15;-5) and (5;15); these KW links indicate that the themes represented by these KWs may form a discourse-semantic network Immediate KW Links (multi-word KWs) = co-occurrence of two or more KWs within immediate or near context (-2;2); these adjacent KW may signal multi-word KW unit (e.g. American people, better politics) custom = arbitrary size of the span

isil qaeda bipartisan hardworking weaken folks terrorists americans terrorist voices strongest america planet stamp allies leadership democracy climate trends economy american harder retirement fellow businesses politics our elected al citizens nation jobs tonight congress vote everybody spirit agree workers families opportunity happen energy change security basic job nearly military believe we better us every future let everything states care lot country world want keep need work make who just year years people new

Comparison For comparing texts time series (SOTU)

State of the UnionIj

Obama s State of the Union Address Eight addresses (2009 2016) 2009 2010 2011 2012 2013 2014 2015 2016 Tokens 6346 8024 7611 7743 7427 7506 7479 6671 Types 1347 1531 1505 1555 1561 1598 1521 1422 Average length N = 7351 Average vocabulary V(N) = 1505 source: http://www.whitehouse.gov Reference corpus: British National Corpus (BNC)

Permanent KWs (Key KWs) KWs appearing in all eight addresses: america, american, americans, businesses, congress, country, economy, jobs, nation, tonight KWs appearing in six or seven addresses: energy, every, let, more, new, people, democrats, families, make, millions, republicans, tax, why

SOTU: Topics economy/politics

Reference corpus in KWAIj

Reference corpus in KWA What does reference corpus affect? size: bigger reference corpus more KWs

Reference corpus in KWA What does reference corpus affect? size: bigger reference corpus more KWs composition: different reference corpora represent different readers (conceptualized reader)

Reference corpus in KWA What does reference corpus affect? size: bigger reference corpus more KWs composition: different reference corpora represent different readers (conceptualized reader) balanced corpus general reader

Reference corpus in KWA What does reference corpus affect? size: bigger reference corpus more KWs composition: different reference corpora represent different readers (conceptualized reader) balanced corpus general reader specialized corpus specific reader (e.g. from the past, with specific background )

Different readers = different interpretations Contrastive KWA analysis different RefCs: interferences time, style, topic differences

Different readers = different interpretations Contrastive KWA analysis different RefCs: interferences time, style, topic differences New Year s Addresses of the last communist president of the Czechoslovakia Gustáv Husák (1975 1989)

Different readers = different interpretations Contrastive KWA analysis different RefCs: interferences time, style, topic differences New Year s Addresses of the last communist president of the Czechoslovakia Gustáv Husák (1975 1989) contemporary reader (SYN2010) reader from the past (Totalita)

Different readers = different interpretations Contrastive KWA analysis different RefCs: interferences time, style, topic differences New Year s Addresses of the last communist president of the Czechoslovakia Gustáv Husák (1975 1989) contemporary reader (SYN2010) reader from the past (Totalita) State of the Union addresses of Barack Obama (2009 2016)

Different readers = different interpretations Contrastive KWA analysis different RefCs: interferences time, style, topic differences New Year s Addresses of the last communist president of the Czechoslovakia Gustáv Husák (1975 1989) contemporary reader (SYN2010) reader from the past (Totalita) State of the Union addresses of Barack Obama (2009 2016) general reader (BNC) politician/expert (rest of Obama s speeches)

Husák: Influence of the reference corpora What happens if we compare texts to different RefCs? the inventory of KWs does not differ substantially

Husák: Influence of the reference corpora What happens if we compare texts to different RefCs? the inventory of KWs does not differ substantially the difference is in ranking (prominence of KWs DIN)

Husák: Influence of the reference corpora What happens if we compare texts to different RefCs? the inventory of KWs does not differ substantially the difference is in ranking (prominence of KWs DIN) Historical reader (Totalita) genre differences Modal verbs: want, can Verbs: 1. sg./pl.

Husák: Influence of the reference corpora What happens if we compare texts to different RefCs? the inventory of KWs does not differ substantially the difference is in ranking (prominence of KWs DIN) Historical reader (Totalita) genre differences Modal verbs: want, can Verbs: 1. sg./pl. Contemporary reader (SYN2010) connected with historical events ideology archaisms, historism

Detailed comparison 3 thematic groups Cold war: mír, míru, mírová, mírové, mírového, mírovému, mírovou, mírový, mírových, mírovými, mírumilovné, mírumilovných, mírumilovným; napětí; odzbrojení, výzbroje, zbrojení, zbrojením, ozbrojených Collective possession: náš, naše, našeho, našem, našemu, naši, naší, našich, našim, naším, našimi Ideo markers: socialismu, socialismus, socialistická, socialistické, socialistického, socialistickém, socialistickému, socialistickou, socialistický, socialistických, socialistickým, socialistickými; komunismu, komunisté, komunistů, ksč, komunistům, komunisty komunistická, komunistické, komunistickým

Cold war Cold War KWs in SYN KWA and TOT KWA DIN 40 50 60 70 80 90 100 SYN KWA TOT KWA 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Year Fidler Cvrček (2015)

Collective possession KWs "our" in SYN KWA and TOT KWA DIN 65 70 75 80 85 90 95 SYN KWA TOT KWA 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Year Fidler Cvrček (2015)

Ideological markers Ideological markers KWs in SYN KWA and TOT KWA DIN 30 40 50 60 70 80 90 100 SYN KWA TOT KWA 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Year Fidler Cvrček (2015)

Reader from the past contemporary reader Totalita 1. style & genre: fellow citizens, friends 2. propaganda: blossom, succeed 3. 1st pers. sg. (greet, wish) SYN2010 1. ideology-related: comrade(s), socialist, five-year plan 2. period-specific: brotherly, liberating, feverish, dutiful, imperialistic

Difference in sensitivity lines for both readers have similar tendencies

Difference in sensitivity lines for both readers have similar tendencies contemporary reader has higher overall level of prominence (DIN)

Difference in sensitivity lines for both readers have similar tendencies contemporary reader has higher overall level of prominence (DIN) tendencies are more visible for reader from the past

Difference in sensitivity lines for both readers have similar tendencies contemporary reader has higher overall level of prominence (DIN) tendencies are more visible for reader from the past contemporary reader cannot distinguish subtle changes (overwhelmed by unusual lexicon)

Difference in sensitivity lines for both readers have similar tendencies contemporary reader has higher overall level of prominence (DIN) tendencies are more visible for reader from the past contemporary reader cannot distinguish subtle changes (overwhelmed by unusual lexicon) astute reader from the past might notice slight shifts in the discourse

2015 SOTU: General vs. specialist s view Rank Keyword 1 rebekah 2 bipartisan 3 hardworking 4 loopholes 5 childcare 6 republicans 7 folks 8 veterans 9 diplomacy 10 striving 11 terrorists 12 americans 13 infrastructure 14 fastest 15 democrats Rank Keyword 1 ben 2 economics 3 childcare 4 rebekah 5 west 6 believed 7 striving 8 tools 9 sick 10 spread 11 write 12 paid 13 surely 14 issues 15 scientists

2015 SOTU: Differences Specialist s view: Rhetorics/style: believed, write, thing, tools Important topics: economics, leave, paid, childcare

2015 SOTU: Differences Specialist s view: Rhetorics/style: believed, write, thing, tools Important topics: economics, leave, paid, childcare General view: Political speeches: bipartisan, republicans, folks, veterans, diplomacy, terrorists, americans, infrastructure, democrats, combat, sanctions Topical words: hardworking, loopholes, childcare, striving, fastest

References Cvrček, V. Vondřička, P. (2013): KWords. FF UK. Praha. Available at: <http://kwords.korpus.cz>. Fidler, M. - Cvrček, V. (2015): A Data-Driven Analysis of Reader Viewpoints: Reconstructing the Historical Reader Using Keyword Analysis. Journal of Slavic Linguistics 23(2), (p. 197 239). Gabrielatos, C. Marchi, A. (2012): Keyness: appropriate metrics and practical issues. Paper presented at the CADS International Conference, Bologna, Italy, September 2012 (www.gabrielatos.com/presentations.htm). Hofland, K. Johansson, S. (1982): Word frequencies in British and American English. Bergen: The Norwegian computing centre for the Humanities. Popescu, I. Altmann, G. (2006): Some Aspects of Word Frequencies. Glottometrics 13, (p. 23 46). Scott, M. Tribble, C. (2006): Textual patterns: Keyword and corpus analysis in language education. Amsterdam: Benjamins. Wierzbicka, A. (1997): Understanding cultures through their keywords. English, Russian, Polish, German, and Japanese. Oxford, New York: Oxford UP. Williams, R. (1976/85): Keywords: A vocabulary of culture and society. New York: Oxford UP.

Thank you for your attention!