Korpusové přístupy k analýze diskurzu. Václav Cvrček 36. studentský workshop Žďárek 29. dubna 2016

Podobné dokumenty
Tematická koncentrace textu. Radek Čech

The Theory behind Keyword Analysis. Václav Cvrček Workshop on Quantitative Text Analysis for SSH Brown University April 8, 2016

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Přítomný čas prostý/ průběhový. Present simple/ present continuous. Výhradní výukový materiál portálu onlinejazyky.cz

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

II_2-01_39 ABBA,Happy New Year, řešení II_2-01_39 ABBA,Happy New Year, for students

aneb Will Smith nebo Will Scarlet?

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

PŘEDPŘÍTOMNÝ prostý ČAS - procvičení

POSLECH. Cinema or TV tonight (a dialogue between Susan and David about their plans for tonight)

Luk aˇ s R uˇ ziˇ cka Podm ınkov e vˇ ety

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

VY_22_INOVACE_17_AJ_3.02_Jazykový test. V hodině žáci vypracují test, naleznou správná řešení a doporučení.

seznamu nepravidelných sloves, osvojuje si správnou výslovnost, vede jednoduchý rozhovor

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

ČTENÍ. Anglický jazyk. Hana Vavřenová. Z á k l a d o v ý t e x t ( s l o v ) :

PŘEDPŘÍTOMNÝ průběhový ČAS (PRESENT PERFECT continuous TENSE) - cvičení

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Popis využití: Výukový materiál s úkoly pro žáky s využitím dataprojektoru, notebooku Čas: 15 minut

VY_22_INOVACE_84. P3 U3 Revision

Náhradník Náhradník 5.A

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Náhradník Náhradník 5.A

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

ČTENÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Budějovice Název materiálu: Passive voice. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Dějiny v zrcadle jazyka. Václav Cvrček, ÚČNK 24. února 2015

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová

Budějovice Název materiálu: Reported Speech. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

PRIMÁRNÍ MODÁLNÍ SLOVESA CAN

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

vybavení bytu, nábytek, dekorace přítomné časy, minulé časy, kondicionály; fráze: get rid of

POSLECH. Kate and Jim are friends. It's Thursday afternoon and they are talking about their free time activities.

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

EU peníze středním školám digitální učební materiál

2. Korpusový portál a volně dostupné nástroje

Aktuální trendy ve výuce a testování cizích jazyků v akademickém prostředí

Název projektu: Multimédia na Ukrajinské

PSANÍ. (1) My address is Dlouhá 34, Liberec. Thank you and!

CZ.1.07/1.5.00/

Digitální učební materiál

Náhradník Náhradník 9.A

PŘÍTOMNÝ ČAS PROSTÝ (PRESENT SIMPLE TENSE)

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

CZ.1.07/1.5.00/

VY_22_INOVACE_číslo přílohy 1_AJ_6A_29. Úvodní část seznámení s cílem hodiny pohádka The Ugly Ducklings

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

CZ.1.07/1.5.00/

William Shakespeare VY_JITKA_PULTAROVA_SADA_TOPICS_SHAKESPEARE_DOPLŇOVAČKA_14. Střední škola služeb, obchodu a gastronomie Hradec Králové

ČTENÍ. Anglický jazyk 9. třída Mgr. Martin Zicháček. Jazyk Úroveň Autor Kód materiálu. Z á k l a d o v ý t e x t ( s l o v ) :

Digitální učební materiál

VY_22_INOVACE_81. P3 U4A Times and Places

Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

PSANÍ. Anglický jazyk 5. třída Hana Stryalová

PŘÍTOMNÝ ČAS PROSTÝ PRESENT SIMPLE

CLIL a projektové vyučování

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Konverzace v AJ? Jak motivovat nemotivované

Přítomný čas prostý a průběhový v angličtině

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Téma: VERB + INFINITIVE VY_32_ZAZNAM_577


ANGLIČTINA jedna pět (1. díl) - začátečníci. Richard Ludvík

Future. V angličtině máme 3 způsoby, jak popsat budoucnost: 1. will future 2. be going to 3. present continuous

Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Pr ubˇ ehov e budouc ı ˇ casy aneb probˇ ehneme se. Luk aˇs R uˇ ziˇ cka 2013 Luk aˇ s R uˇ ziˇ cka Pr ubˇ ehov e budouc ı ˇ casy

Název projektu: Multimédia na Ukrajinské

Digitální učební materiál

M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Větné členy a jejich pozice. Význam anglického slovosledu

POSLECH. Mona has got her eleventh birthady on Sathurday, she she is planning a big party for her friends. She met her friend John.

Digitální učební materiál

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

Angličtina O-06 A 1. Označte správnou variantu. (10x1 bod)

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

ují tzv. způsob hlavního významového slovesa, které za modálními následuje vyjadřují povinnost, nutnost, schopnost, možnost, příkaz, zákaz apod.

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Kdo jsme Čím se zabýváme Nabídka služeb pro veřejnou správu Ověřeno v praxi u tisíce uživatelů v podnikatelské a bankovní sféře Plně využitelné u

Popis využití: Výukový materiál s úkoly pro žáky s využitím dataprojektoru, notebooku Čas: 15 minut

Náhradník Náhradník 5.A

Gymnázium, České Budějovice, Česká 64, PSČ student popíše a porovná obrázky k danému tématu, vyjádří svůj názor k dané

Anglický jazyk 5. ročník

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Transkript:

Korpusové přístupy k analýze diskurzu Václav Cvrček 36. studentský workshop Žďárek 29. dubna 2016

ÚvodIj

Úvodem Interpretace textu jádro práce humanitního vědce každá interpretace je hodna pozornosti objektivní interpretace neexistuje (vždy záleží na úhlu pohledu) snaha o minimalizaci předpojatosti (researcher bias) empirické zakotvení (minimum intuice) vycházející z textu (minimum vnětextových informací)

Prominentní jednotkyij

Interpretace a prominence Kde začít s interpretací textu? co je na textu zvláštního/specifického? témata, motivy vyjadřené slovy interakce mezi slovy/tématy funkce a význam slov/motivů CADS = corpus-assisted discourse studies

Tématická koncentrace plnovýznamová slova s abnormální frekvencí založeno na I. Zipfově zákonu (rank fq = konst.) h-point: rank = frekvence h-point přibližně odděluje synsémantickou a autosémantickou složku distribuce plnovýznamová slova nad h-bodem jsou TC Popescu & Altmann 2006, David et al. 2013, Čech 2016

Tématická koncentrace

Tématická koncentrace příklady 1984: Winston, say, know, Party, face, word, O Brien, seem, look, never, think, moment, always, hand, year, way, long, now, eye, day, possible, war SOTU: year, job, work, America, new, people, american, know, need, help, country, business, time, world, economy, family, right, tax, Congress, nation Hobbit: come, go, Bilbo, see, dwarf, time, long, make, think, great, good, know, far, still, goblin, find, way, look, little, light

Tématická koncentrace diskuse Klady a zápory tématické koncentrace + objektivita založeno na frekvenční distribuci + aplikace: porovnání textů na základě tématické kompaktnosti + nevyžaduje referenční korpus - množina prominentních jednotek je invariantní - interpretace bez osoby interpreta pomíjí úhel pohledu

Analýza klíčových slovij

Analýza klíčových slov Klíčová slova (KWs) terminologické homonymum (!) A word-form which recurs within the text in question will be more likely to be key in it. (M. Scott 2006) srovnání relativní frekvence v textu s referenčním korpusem referenční korpus představuje modelového příjemce testy signifikance: χ 2 test, log-likelihood (G) test, Fisher test určení míry prominence (effect size DIN) klíčová slova jsou východiskem interpretace (nikoli cílem analýzy)

Analýza klíčových slov (KWA) Romeo and Juliet vs. all Shakespeare plays (Scott et al. 2006) AH DEATHLY MARRIED SLAIN ART EARLY MERCUTIO THEE BACK FRIAR MONTAGUE THOU BANISHED JULIET MONUMENT THURSDAY BENVOLIO JULIET S NIGHT THY CAPULET KINSMAN NURSE TORCH CAPULETS LADY O TYBALT CAPULET S LAWRENCE PARIS TYBALT S CELL LIGHT POISON VAULT CHURCHYARD LIPS ROMEO VERONA COUNTY LOVE ROMEO S WATCH DEAD MANTUA SHE WILT

Algoritmus pro identifikaci KWs Postup zjistit frekvenci všech slov v textu nejfrekventovanější jsou a, se na, v porovnat relativní frekvence jednotek v textu a v referenčním korpusu použít statistický test: χ 2, log-likelihood nebo Fisherův exaktní test pro zjištění, zda je rozdíl signifikantní interpretovat prvních X nejvíc prominentních jednotek

Poznámka o signifikanci a relevanci Gabrielatos, C. & Marchi, A. (2012): je rozdíl mezi statistickou signifikancí a relevancí (effect size) Metrika k určování prominence/keyness signifikance míra jistoty, že máme dostatek dat pro konstatování nenáhodného rozdílu relevance významnost rozdílu pro interpretaci zásadní při interpretaci pouze prvních X klíčových slov: 1. identifikace KWs statistické testy 2. pořadí KWs odlišná metrika

Koeficient DIN Variace na Sørensen Diceův koeficient 1 : DIN = 100 RelFq(Target) RelFq(Reference) RelFq(Target) + RelFq(Reference) hodnoty DIN -100 (= slovo se vyskytuje pouze v RefC) 0 (= slovo se vyskytuje stejně často v textu a v RefC) 100 (= slovo je pouze ve zkoumaném textu) DIN = rozdíl relativních frekvencí k jejich průměru ( 50) hodnota 100 pro všechna slova, která nejsou v RefC (!) užitečné pro stanovování pořadí, nikoli pro identifikaci 1 cf. Hofland Johansson (1982).

Nástroje pro KWAIj

KWords http://kwords.korpus.cz

KWords: analyzovaný text

KWords: seznam klíčových slov 2 typy prominentních jednotek: klíčová slova and tematická koncentrace

Disperze klíčových slov SOTU 2016: terrorism economy

isil qaeda bipartisan hardworking weaken folks terrorists americans terrorist voices strongest america planet stamp allies leadership democracy climate trends economy american harder retirement fellow businesses politics our elected al citizens nation jobs tonight congress vote everybody spirit agree workers families opportunity happen energy change security basic job nearly military believe we better us every future let everything states care lot country world want keep need work make who just year years people new

Multi-analýza Pro srovnávání několika textů časová řada (Novoroční projevy G. Husáka)

MD-CADS: práce s časovou osouij

Diachronní změna v KWA Hypotézy různá sada KWs v různých letech indikuje změny ve společnosti/politice (viz výše) v čase se měnící zapojení klíčového slova do kontextu ostatních klíčových slov naznačuje změnu asociací collocations create connotations : různé kontexty klíčových slov v čase naznačují proměny významu

Klíčové slovo komunistické / KSČ u GH Rok Klíčové slovo Fq Levý kontext* 1975 komunistické 5 jménem, orgány strany, správná politika 1976 komunistické 6 jménem, orgány strany, úspěšná politika 1977 komunistické 5 jménem, orgány strany, podpora politice 1978 1979 komunistické 5 jménem, orgány strany, podpora politice 1980 1981 komunistické 4 jménem, orgány strany, kritika 1982 komunistické 5 jménem, orgány strany, podpora politice 1983 KSČ 5 jménem, orgány strany, správná politika 1984 1985 komunistické 4 jménem, orgány strany, důvěra v politiku 1986 komunistické 3 jménem, orgány strany 1987 komunistické 3 jménem, orgány strany, KSSS 1988 KSČ 3 orgány strany 1989 KSČ 4 orgány strany * V pravém kontextu je vždy slovo strany.

Vliv referenčního korpusuij

Vliv referenčního korpusu Jakým způsobem funguje referenční korpus v KWA? velikost: čím větší korpus (nebo text), tím víc KWs složení: různé referenční korpusy reprezentují různé modelové čtenáře vyvážený korpus průměrný čtenář specializovaný korpus specifický čtenář (např. se specifickým odborným zázemím )

Různí příjemci = různé interpretace Kontrastivní KWA různé referenční korpusy: interference čas, styl, téma Novoroční projevy Gustáva Husáka (1975 1989) současný čtenář (SYN2010) čtenář z minulosti (Totalita)

Analýza GH: vliv referenčního korpusu Jak se změní výsledky KWA s různými referenčními korpusy? inventář KWs zůstává více méně stejný liší se jejich pořadí (prominence DIN) Historický čtenář (Totalita) žánrové rozdíly modální slovesa: chtít, moci Slovesa: 1. sg./pl. Současný čtenář (SYN2010) KWs spojená s historickými reáliemi ideologická slova archaismy, historismy

Detailnější srovnání 3 skupiny slov Cold war: mír, míru, mírová, mírové, mírového, mírovému, mírovou, mírový, mírových, mírovými, mírumilovné, mírumilovných, mírumilovným; napětí; odzbrojení, výzbroje, zbrojení, zbrojením, ozbrojených Collective possession: náš, naše, našeho, našem, našemu, naši, naší, našich, našim, naším, našimi Ideo markers: socialismu, socialismus, socialistická, socialistické, socialistického, socialistickém, socialistickému, socialistickou, socialistický, socialistických, socialistickým, socialistickými; komunismu, komunisté, komunistů, ksč, komunistům, komunisty komunistická, komunistické, komunistickým

Cold war Cold War KWs in SYN KWA and TOT KWA DIN 40 50 60 70 80 90 100 SYN KWA TOT KWA 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Year Fidler Cvrček (2015)

Collective possession KWs "our" in SYN KWA and TOT KWA DIN 65 70 75 80 85 90 95 SYN KWA TOT KWA 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Year Fidler Cvrček (2015)

Ideological markers Ideological markers KWs in SYN KWA and TOT KWA DIN 30 40 50 60 70 80 90 100 SYN KWA TOT KWA 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Year Fidler Cvrček (2015)

Rozdíl je v citlivosti vývoj prominence jednotlivých témat je principiálně stejný současný čtenář má celkově vyšší míru prominence (DIN) vývojové tendence jsou zřetelnější pro čtenáře z minulosti současný čtenář nedokáže vnímat rozdíly

Morfologie a prominenceij

Řečnické strategie Zaměření na gramatické a flektivní charakteristiky KWs porovnání prominence gramatických kategorií v projevech 4 prezidentů: G. Husák, V. Havel, V. Klaus a M. Zeman pomocí DIN se zohledňuje působení na současného nativního mluvčího (referenční korpus SYN2010) zastoupení gramatických kategorií v rámci klíčových slov obvyklé gramatické charakteristiky prominentních slov

Slovní druhy

Slovesná osoba

Distribuce čísla 1. os.

Distribuce čísla 3. os.

Tvary nebo lemmata?ij

Analýza portálu Sputniknews.cz Data Korpus SPU texty obsahující slovní základ rusk- z období 4.3. 4.4. 2015 80 000 pozic Referenční korpus: SYN2015 reprezentativní korpus současné psané češtiny (FIC, NFC, NWS) z období 2010 2014 121 666 414 pozic Iniciální analýza byla provedena na lemmatech (MorphoDiTa).

Prominentní lemmata přes 500 klíčových slov, na špičce prominence propria lemmata inherentně poukazující na specif. zájmy Sputniku: rusofobie (37.) protiruský (53.) lemmata, jejichž užití vysvítá z kontextu kompromitace (70.) Lavrov označil verzi Reuters o výbuchu malajského Boeingu za lživou kompromitaci. rozmísťování (78.) Bude-li rozmísťování PRO u ruských hranic pokračovat, bude zcela jasné, že ve skutečnosti se předpokládá využít těchto systémů proti Rusku. démonizace (81.) Peskov hovořil o příčinách démonizace Putina na Západě.

Rusko a jeho pády Lemma Rusko je prominentní dáno metodou sběru dat; liší se ovšem prominence jednotlivých pádů Pád Tvar SPU SYN2015 DIN Nom. Rusko 175 2088 7.94 Gen. Ruska 164 2351-1.22 Dat. Rusku 93 493 45.04 Ak. Rusko 60 546 21.18 Lok. Rusku 53 2457-53.64 Inst. Ruskem 66 613 20.20 SUM 611 8548 DIN počítán vzhledem k celkovým frekvencím lemmatu Rusko v obou korpusech.

Předložky s dativem Rusku SYN2015 SPU Prep. + Rusku AbsFq RelFq AbsFq RelFq k 130 40.1 % 18 23.7 % proti 105 32.4 % 43 56.6 % kvůli 8 2.5 % 0 0.0 % díky 0 0.0 % 0 0.0 % vůči 79 24.4 % 15 19.7 % oproti 1 0.3 % 0 0.0 % navzdory 0 0.0 % 0 0.0 % naproti 0 0.0 % 0 0.0 % vstříc 0 0.0 % 0 0.0 % blízko 0 0.0 % 0 0.0 % napospas 1 0.3 % 0 0.0 %

Interpretace Jak interpretovat prominenci Dat., Ak. a Lok. lemmatu Rusko? Rusko ve SPU není prezentováno jako agens, ale jako patiens (zejm. s ohledem na prominenci dat. s předložkou proti): Rusko je zobrazováno jako cíl nebo oběť může být důsledkem záměru vzbudit v čtenáři sympatie k Rusku

ZávěrIj

so what? K čemu je empirická analýza diskurzu, odhaluje-li věci intuitivně tušené? empirické ověřování hypotéz je základem vědeckého postupu empirie pomáhá odhalovat možné příčiny tušení bez empirického zkoumání textů nejsme schopni simulovat interpretace jiných lidí ne vše, co je intuitivně tušené, se empirickým testováním potvrdí ne vše je tušené (existují i wow! závěry)

Těším se na vaše otázky