Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Podobné dokumenty
Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

Úvod do kvantitativní lingvistiky. Radek Čech

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Frekvence Korelační analýza Jazykové zákony

stylometrický software quita miroslav kubát ff ou ostrava js ostrava

Tematická koncentrace textu. Radek Čech

UNIVERZITA PALACKÉHO

5.1 Český jazyk a literatura Vyšší stupeň osmiletého gymnázia a gymnázium čtyřleté

Úvod do kvantitativní lingvistiky. Radek Čech

Analýza staročeské morfologie v Excelu

NĚMECKÝ JAZYK A LITERATURA (jednooborové navazující magisterské studium) N 7310 Filologie

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Anotace sady digitálních učebních materiálů. Název: Česká literatura

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

Info schůzka. 2-Nov-18 Open Day - Dept. of English 1

Očekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)

TÉMATA KVALIFIKAČNÍCH PRACÍ

MODERNÍ MARKETINGOVÝ VÝZKUM

Marketingové aplikace. Doc. Ing.Vladimír Chalupský, CSc., MBA

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Bakalářský seminář - 3

Zvyšování kvality výuky technických oborů

ÚSTAV ROMÁNSKÝCH STUDIÍ. Oddělení italianistiky urs.ff.cuni.cz Den otevřených dveří FF UK

NÁVRHY TEMATICKÝCH PLÁNŮ. 1. ročník Počet hodin

Český jazyk a literatura Prostě-sdělovací funkční styl

Popis morfologických značek poziční systém

INFORMACE O STUDIJNÍCH PROGRAMECH A OBORECH NA PEDAGOGICKÉ FAKULTĚ PRO AKADEMICKÝ ROK 2017/2018

Info schůzka. 16-Jan-16 Open Day - Dept. of English 1

K pojetí výuky literární teorie na 2. stupni ZŠ průzkumné šetření v západní části mikroregionu Hlučínsko Gabriel Juchelka

Ročník II. Český jazyk. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

KAM SE ZTRATILI VOLIČI?

Český jazyk pro 7. ročník

KDYŽ ZAČÍNÁME MLUVIT... Lingvistický pohled na rané projevy česky hovořícího dítěte. Lucie Saicová Římalová

Problematika hluchoty: aktuální otázky 4. hodina ( ) NESLYŠÍCÍ V POLSKU VĚDA, VZDĚLÁNÍ, VÝZKUM, KORPUS

Očekávané výstupy z RVP Učivo Přesahy a vazby. zvuková stránka jazyka (spisovná a nespisovná výslovnost)

MANAŽERSKÉ ROZHODOVÁNÍ. Zpracoval Ing. Jan Weiser

Zvyšování kvality výuky technických oborů

Tematika XVI. mezinárodního sjezdu slavistů v Bělehradě v r JAZYK Etymologie a historicko-srovnávací výzkum slovanských jazyků.

Předmět: ČESKÝ JAZYK Ročník: 7. ŠVP Základní škola Brno, Hroznová 1. Výstupy předmětu

VOLITELNÉ PŘEDMĚTY - 4. ročník. Školní rok: Blok zaměřený na matematiku, fyziku a IVT. - cvičení z matematiky

EU_12_sada2_02_ČJ_Literatura_Dur

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: literární výchova - ročník: SEKUNDA

Ročník V. Český jazyk. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

STŘEDOEVROPSKÁ STUDIA

Cizinci a cizinky ze třetích zemí na trhu práce v ČR

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Statistika. pro žáky 8. ročníku. úterý, 26. března 13

Digitální učební materiál

Zvyšování kvality výuky technických oborů

TR(1) Tabulka rovin ČG - 1., 2., 3. ročník ZŠ

Validita korpusu ORAL2013. Mgr. Jan Chromý, Ph.D.

ÚSTAV ROMÁNSKÝCH STUDIÍ ODDĚLENÍ ITALIANISTIKY URS.FF.CUNI.CZ

Zvyšování kvality výuky technických oborů

Protetické v- v pražské mluvě. seminář Příprava a realizace interdisciplinárního výzkumu

Výchovné a vzdělávací strategie uplatňované v předmětu Mediální výchova

Zkouška je podmínkou návštěvy jakéhokoli semináře z lingvistiky nebo literatury. 2)

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky Autor: Mgr. Martin Fryauf Název materiálu: Kriminalistické

Popisná statistika - úvod

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA

PEDAGOGICKÁ FAKULTA OSTRAVSKÉ UNIVERZITY

obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy

český jazyk a literatura

Česká filologie bakalářské studium jednooborové (ČFIL2-nová) + editoři (ČFED2-nová) Přidány tyto volitelné předměty:

Zvuková stránka jazyka Systém českých hlásek, zásady správné výslovnosti, prostředky souvislé řeči

Středověká literatura

SOCIÁLNÍ INTERAKCE přednáška P01

Teoreticko-metodologický seminář. Zdeňka Jastrzembská

Pohled pedagoga běžné základní školy na podporu komunikativních kompetencí žáků s narušenou komunikační schopností

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

PEDAGOGIKA: OKRUHY OTÁZEK Státní závěrečná zkouška magisterská

ROZHODOVÁNÍ ROZHODOVACÍ PROBLÉM A PROCES

Komunikační a slohová výchova

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Český jazyk a literatura

ENVIRONMENTÁLNÍ EKONOMIKA I.

LITERATURA A JEJÍ DRUHY A ŽÁNRY

Zvyšování kvality výuky technických oborů

Zvyšování kvality výuky technických oborů

VOLITELNÉ PŘEDMĚTY - 4. ročník. Školní rok: Blok zaměřený na matematiku, fyziku a IVT. - cvičení z matematiky. - cvičení z fyziky

Motivační dopis JAZYKOVÁ LEKCE. pracovní listy. Projekt Změňte to! Podpora uplatnění migrantů na trhu práce (reg. číslo CZ.2.17/2.1.

Téma číslo 4 Základy zkoumání v pedagogice I. Pavel Doulík, Úvod do pedagogiky

Olympiáda v českém jazyce 45. ročník, 2018/2019

ČESKÝ JAZYK 3. ROČNÍK

REGIONÁLNÍ KONCENTRACE AKTIVIT PODNIKŮ. Příklad využití individuálních dat ve spojení s autokorelační statistikou

SOUKROMÁ STŘEDNÍ ŠKOLA MAJA, s.r.o., Viničná 463, Mladá Boleslav

EVALUACE OP V LETECH VÝSLEDKY META-EVALUAČNÍHO ŠETŘENÍ Mgr. Jiří Remr, Ph.D., MBA

Spokojenost se životem

Pracovní list slouží k procvičení statistiky. Žáci se především procvičí v základních pojmech, které se týkají statistiky.

I. Andragogické teorie

Vysoká škola báňská Technická univerzita Ostrava Ekonomická fakulta Katedra regionální a environmentální ekonomiky

Eva Lehečková 28. workshop Ţďárek Litoměřice

Český jazyk a literatura Mluvené projevy

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

Lekce 4 Statistická termodynamika

Transkript:

Kvantitativní analýza žánrů Radek Čech & Miroslav Kubát

Východiska 1. jazyk jako projev chování 2. jazykové chování ovlivněno pragmatickými faktory (kontextem) 3. některé kontexty se opakují a vykazují velmi podobné rysy uchazečský pohovor soudní přelíčení určitá zaměstnání (mluva řezníků vs. mluva realitních makléřů) žánry 4. pokud platí (1), (2) a (3), pak se dá předpokládat, že kontexty s podobnými rysy by měly podobně ovlivňovat jazykové chování různé kontexty by se měly projevovat v různém jazykovém chování tendence!!! 5. jde nám primárně o jazykovou analýzu

Vymezení měřitelných vlastností kontextu kontext = soubor řady různorodých vlastností cíl komunikace věk, vzdělání mluvčího/pisatele věk, vzdělání posluchače/čtenáře prostředí (hospoda, posluchárna, soudní síň ) momentální stav mysli denní doba, počasí, délka doby před výplatou, žízeň

Vymezení měřitelných vlastností kontextu smysluplnost praktická autorství (kriminalistika), didaktika teoretická styly, autorství (literární historie), žánry proveditelnost věk, vzdělání, identifikace mluvčího nálada, momentální stav mysli, žízeň nutný redukcionismus vzájemný vliv faktorů (žánry vs. autorství) některé faktory se zanedbávají (např. stav mysli, žízeň) = fluktuace

Vymezení měřitelných vlastností jazyka lingvisticky interpretovatelné slovní bohatství, tematická slova, tematická koncentrace, délka věty, distribuce slovních druhů lingvisticky neinterpretovatelné zpravidla desítky parametrů není jasný vztah mezi parametry ani jejich intepretace (např. n-gramy různých jazykových jednotek, faktorové analýzy)

Kvantifikace umožňuje vyjádřit velikost rozdílu mezi jednotlivými texty mezi skupinami textů formalizace nutí badatele k jasně vymezené operacionalizaci replikovatelnost

Proč analyzovat žánry kvantitativní analýzou jazyka? lingvista zkoumaní vlivu pragmatických faktorů (v tomto případě žánrů) na jazykové chování zkoumání míry vlivu pragmatických faktorů (žánrů) obecně zkoumání míry vlivu vzhledem ke zvoleným jednotkám fonologie lexikum morfologická komplexita syntax analýza na první pohled neviditelných vlastností jazykového chování

Proč analyzovat žánry kvantitativní analýzou jazyka? literární vědec/historik/kritik vzhledem k nejasnosti vymezení hranic a typů žánrů možná inspirace pro jejich třídění potvrzení/vyvrácení introspektivního hodnocení měření míry homogenity skupin textů nová klasifikace textů

co od ní nelze čekat interpretace vystihnutí podstaty žánru jasně danou klasifikaci žánrů vždy jde o tendence fluktuace redukcionismus Kvantitativní analýza žánrů

Stylistika Literárněvědná Lingvistická Kvalitativní Kvantitativní = stylometrie Zkoumání stylů (žánry, autoři, ) Klasifikace textů (deep learning)

Aktivita Q Poměr sloves V a sumy sloves V a adjektiv A v textu. Q = V V+A V počet sloves A počet adjektiv

Seřaďte žánry v korpusu KČ podle aktivity textu román povídka cestopis studie sloupek pohádka dopis báseň

AKTIVITA 0,75 0,70 0,65 0,60 0,55 0,50 0,45 0,40 0,35 0,30 pohádka povídka báseň román dopis sloupek cestopis studie

román povídka cestopis studie sloupek pohádka dopis báseň román x povídka 2,32 x cestopis 20,06 20,83 x studie 31,03 30,73 5,25 x sloupek 9,71 10,99 7,04 12,50 x pohádka 2,34 0,80 15,67 20,86 9,01 x dopis 3,25 5,09 15,46 23,77 6,53 4,32 x báseň 0,31 0,70 9,86 12,87 5,39 1,12 1,77 x

AKTIVITA 0,75 0,7 0,65 0,6 0,55 0,5 báseň pohádka povídka román dopis sloupek 0,45 0,4 0,35 cestopis studie 0,3 0,3 20,3 40,3 60,3 80,3 100,3 120,3 140,3 160,3 SUMA U

AKTIVITA 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 50 100 150 200 250 300 350 400 450 500 SUMA U

AKTIVITA 1 0,9 0,8 0,7 0,6 0,5 POHÁDKA DOPIS STUDIE CESTOPIS POVÍDKA BÁSEŇ 0,4 0,3 0,2 50 100 150 200 250 300 350 400 450 500 SUMA U

Moving Average Morphological Richness (MAMR) MAMR L = MATTR(L) word MATTR(L) lemma MATTR L = σ N L i=1 Vi L(N L+1) L arbitrarily chosen length of a window, L < N N text length in tokens V i number of types in an individual window

Seřaďte žánry v korpusu KČ podle MAMR román povídka cestopis sloupek dopis

MAMR 0,110 0,105 0,100 0,095 0,090 0,085 0,080 0,075 0,070 0,065 0,060 dopis povídka sloupek román cestopis

MATTR 0,9 0,88 CESTOPIS 0,86 POVÍDKA 0,84 0,82 0,8 0,78 0,76 0,74 0,72 0,7 0,03 0,05 0,07 0,09 0,11 0,13 MAMR

Míra homogenity skupin textů

100,00 % 90,00 % 80,00 % 70,00 % 60,00 % 50,00 % 40,00 % 30,00 % 20,00 % 10,00 % 0,00 % Podíl signifikantních rozdílů aktivity v cestopisech KČ 20,94 % 13,85 % 13,12 % 17,33 % 2,94 % IL AL VDŠ OZH CNS

100,00 % 90,00 % 80,00 % 70,00 % 60,00 % 50,00 % 40,00 % 30,00 % 20,00 % 10,00 % 0,00 % 10,26 % Podíl signifikantních rozdílů aktivity v povídkách KČ 16,67 % Boží muka Trapní povídky Povídky z jedné kapsy 0,00 % 0,00 % Povídky z druhé kapsy

100,00 % 90,00 % 80,00 % 70,00 % 60,00 % 50,00 % 40,00 % 30,00 % 20,00 % 10,00 % 0,00 % Podíl signifikantních rozdílů STC v cestopisech KČ 34,00 % 30,30 % 24,30 % 25,74 % 4,76 % IL AL VDŠ OZH CNS

100,00 % 90,00 % 80,00 % 70,00 % 60,00 % 50,00 % 40,00 % 30,00 % 20,00 % 10,00 % 0,00 % Podíl signifikantních rozdílů STC v povídkách KČ 70,51 % 88,89 % 87,32 % Boží muka Trapní povídky Povídky z jedné kapsy 81,52 % Povídky z druhé kapsy

cechradek.cz miroslavkubat.webnode.cz Děkujeme za pozornost!