Tematická koncentrace textu. Radek Čech

Podobné dokumenty
Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost

Moc výkonnná. SOŠ InterDACT s.r.o.

státní svátek Den obnovy samostatného českého státu Velikonoční pondělí Den slovanských věrozvěstů Cyrila a Metoděje Den české státnosti

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Tomáš Garrigue Masaryk

Statistika pro geografy

Statistické zpracování dat:

Metodologie pro ISK II

Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

Kartogramy. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

Od totality k demokracii. Skládačka

UKAZATELÉ VARIABILITY

MĚŘENÍ AKUSTICKÝCH VELIČIN. Ing. Barbora Hrubá, Ing. Jiří Winkler Kat. 225 Pozemní stavitelství 2014

Datum: Projekt: Využití ICT techniky především v uměleckém vzdělávání Registrační číslo: CZ.1.07/1.5.00/34.

Základní statistické charakteristiky

Českoslovenští prezidenti

Postupy při hodnocení variant a výběru nejvhodnějšího řešení. Šimon Kovář Katedra textilních a jednoúčelových strojů

Vliv demografických proměnných na kvalitu života v obcích ČR

LOKALIZACE ZDROJŮ AE NEURONOVÝMI SÍTĚMI NEZÁVISLE NA ZMĚNÁCH MATERIÁLU A MĚŘÍTKA

Naše vlast - historické dědictví Metodický list

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Od totality k demokracii

Úvod do kvantitativní lingvistiky. Radek Čech

Číselné charakteristiky a jejich výpočet

Tento materiál byl vytvořen v rámci projektu Operačního programu

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Teorie měření a regulace

17. listopad Den boje za svobodu a demokracii

Výstupní testování studentů 4. ročníku

Přednáška č.13. Organizace firmy při zahraniční činnosti

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Základní pojmy DEFINICE INTERPRETACE PŘÍKLAD

NÁVRAT K DEMOKRACII jaro 1968 Alexander Dubček 21. srpna 1968 okupace obnovena Gustav Husák pronásledování normalizace

VALIDACE GEOCHEMICKÝCH MODELŮ POROVNÁNÍM VÝSLEDKŮ TEORETICKÝCH VÝPOČTŮ S VÝSLEDKY MINERALOGICKÝCH A CHEMICKÝCH ZKOUŠEK.

Absolutní rozměry nedávají dostatečnou představu o tvarových a jiných odlišnostech. Vyuţívá se proto i antropologických ukazatelů INDEXŮ.

Ekonomické aspekty trvale udržitelného územního

ŽÁDOST O POSKYTNUTÍ INFORMACÍ DLE ZÁKONA Č. 106/1999 SB.

Spokojenost se životem

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Vybrané statistické metody. You created this PDF from an application that is not licensed to print to novapdf printer (

Střední průmyslová škola v Teplicích Předmět: Kontrola a měření ve strojírenství

5.3 SHRNUTÍ LÁTKY NA POMĚRNÁ ČÍSLA, SOUVISLÝ PŘÍKLAD


Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

STONOŽKA 2014/ ROČNÍKY

Ing. Jaroslava Syrovátkov. tková Prezident ČR

NÁRODNÍ TESTOVÁNÍ 2018/ ROČNÍK

T- MaR. Ústav technologie, mechanizace a řízení staveb. Teorie měření a regulace. Podmínky názvy. 1.c-pod. ZS 2015/ Ing. Václav Rada, CSc.

Porovnání výstupů z modelu Aladin s výsledky měření na LMS Mošnov a MS Lysá hora

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Tomáš Karel LS 2012/2013

OSA. maximalizace minimalizace 1/22

Aplikovaná statistika pro učitele a žáky v hodinách zeměpisu aneb jak využít MS Excel v praxi. Geografický seminář 30. března 2011 Pavel Bednář

ZÁKLADNÍ ŠKOLA PŘI DĚTSKÉ LÉČEBNĚ Ostrov u Macochy, Školní 363 INOVACE VÝUKY CZ.1.07/1.4.00/

Identifikace lokálních extrémů

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)

Číselné charakteristiky

Protokol č. 1. Tloušťková struktura. Zadání:

aktivita A0705 Metodická a faktografická příprava řešení regionálních disparit ve fyzické dostupnosti bydlení v ČR

STONOŽKA 2014/15 6. ROČNÍKY modul KEA

Statistické metody vyhodnocení vlivu škodlivin na denní úmrtnost, hospitalizaci a příznaky kardiovaskulárních a respiračních onemocnění

Datové struktury 2: Rozptylovací tabulky

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Gymnázium Jiřího Ortena, Kutná Hora

Dějiny 20. století, totalitní režimy

VNITROSKUPINOVÝ ROZPTYL. Je mírou variability uvnitř skupin Jiný název: průměr rozptylů Vypočítává se jako průměr rozptylů v jednotlivých skupinách

Validace sérologických testů výrobcem. Vidia spol. s r.o. Ing. František Konečný IV/2012

Analýza tematické koncentrace textu: komparace publicistiky Ladislava Jehličky a Karla Čapka*

Paměti cache. Cache může být realizována softwarově nebo hardwarově.

Konvergence české ekonomiky, výhled spotřeby elektrické energie a měnová politika v ČR

Inovace: Posílení mezipředmětových vztahů, využití multimediální techniky, využití ICT.

Bezpečnost chemických výrob N Petr Zámostný místnost: A-72a tel.:

PSK1-5. Frekvenční modulace. Úvod. Vyšší odborná škola a Střední průmyslová škola, Božetěchova 3 Ing. Marek Nožka. Název školy: Vzdělávací oblast:

průměrný percentil za části testu odchylka skóre analytická verbální směrodatná

Věková struktura 2011

Operační výzkum. Teorie her. Hra v normálním tvaru. Optimální strategie. Maticové hry.

Hodnocení kvality logistických procesů

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

DIGITÁLNÍ UČEBNÍ MATERIÁL

Dělení států. Autor: Mgr. Václav Štěpař Vytvořeno: listopad 2013

Z X H o d n o c e n í v l i v ů n a ž i v o t n í p r o s t ř e d í. Vybrané metody posuzování dopadu záměrů na životní

Ing. Jan Mareš, G r e i f a k u s t i k a s.r.o. Měření hluku tepelných čerpadel vzduch - voda

Analýza skutečné potřebnosti služeb pro cílovou skupinu seniorů

Úvod do zpracování signálů

PŘEDMLUVA 1 PŘEDMĚT A CÍL FINANČNÍ ANALÝZY 3 METODY FINANČNÍ ANALÝZY 7

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Charakterizují kvantitativně vlastnosti předmětů a jevů.

EXPERIMENTÁLNÍ METODY I 10. Měření hluku

Kalkulace závažnosti komorbidit a komplikací pro CZ-DRG

Od totality k demokracii X X X X X

DOTAZNÍKOVÁ ANKETA ŘEPY - 2O15 AUTOMOBILOVÁ PŘEPRAVA PRO SENIORY A ZDRAVOTNĚ ZNEVÝHODNĚNÉ

Sada č. III Identifikátor DUM: VY_32_INOVACE_SADA III_D, DUM 19 Vzdělávací oblast: Člověk a společnost Vzdělávací obor: Dějepis

Vlastík Úvodní obrazovka Obrázky z českých dějin V proudu staletí Hrajeme si Otázky z českých dějin Licenční ujednání Registrovat Tisk testů

Historická prostorová data ve vzdělání a praxi

Indexy, analýza HDP, neaditivnost

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE DIPLOMOVÁ PRÁCE

Transkript:

Tematická koncentrace textu Radek Čech

Cíle pomocí kvantitativní textové analýzy odhalit ústřední téma textu (pokud existuje) zjistit tematickou sílu jednotlivých slov reprezentujících témata textu zjistit tematickou koncentraci celého textu

Metodologie Popescu et al. (2009) tematická slova substantiva, verba, adjektiva východiskem frekvenční charakteristika textu h-bod určuje fuzzy hranici mezi synsémantickými a autosémantickými slovy

Metodologie Popescu et al. (2009) tematická slova substantiva, verba, adjektiva východiskem frekvenční charakteristika textu h-bod určuje fuzzy hranici mezi synsémantickými a autosémantickými slovy tematická slova na h-bodem vyjadřují hlavní téma textu (lepší výsledky u lemmatizovaných textů)

Postup text J. Hus Dcerka (text poskytlo Oddělení vývoje jazyka UJČ) vytvoření frekvenční distribuce slovních tvarů AntConc http://www.antlab.sci.waseda.ac.jp/antconc_index.html

Frekvenční distribuce pořadí f slovo pořadí f slovo pořadí f slovo 1 503 a 12 70 to 23 41 die 2 200 jest 13 58 když 24 41 ho 3 176 v 14 57 má 25 41 na 4 174 sě 15 53 bóh 26 39 ale 5 174 že 16 52 protož 27 38 jeho 6 112 neb 17 51 jenž 28 37 z 7 98 i 18 49 od 29 36 boha 8 98 tak 19 48 své 30 35 jako 9 88 aby 20 47 by 31 33 jakož 10 78 k 21 47 s 32 33 ty 11 71 člověk 22 43 li 33 30 ďáble

H-bod h= f (h) h= f (i) j f ( j)i j i+ f (i) f ( j) h Dcerka = 33 33 30 32 33 32+33 30 =32.25

Index tematické koncentrace r... pořadí slova před h-bodem tematická váha: h-r slova s nejnižším rankem mají největší váhu relativizace tematická váha daného slova vynásobená jeho vlastní frekvencí je podělena součtem všech vah a nejvyšší možnou frekvencí index tematické koncentrace slova

Postup výpočet normalizační konstanty C 2 h(h 1) f (1) = 2 32.25(31.25)503 =0.00000394532=C člověk (r = 11, f = 71) (h r ') f (r ' )C =(32.25 11)71 C =0.005952502

Tematická koncentrace textu slovo r f (h-r )f(r )C člověk 11 71 0.00592 bóh 15 53 0.00361 die 23 41 0.00150 boha 29 36 0.00046 TC 0.01152 tcu=1000(tc ) tcu Dcerka =1000(0.01152)=11.52

Tematická koncentrace textu k čemu je to dobré? jednoduchá metoda umožňující zjistit, o čem daný text je a jak moc se týká centrálního tématu (případně témat) kvantifikace umožňuje porovnávat texty (za pomocí statistických testů) nedostatek pokud žádné tematické slovo nad h-bodem, TC=0 všechny texty s TC=0 jsou si rovny

Index negativní TC východisko h-bod fuzzy hranice pokud text tematicky roztříštěn tematická slova mají relativně malou frekvenci čím je text tematicky roztříštěnější, tím větší vzdálenost mezi h-bodem a prvním tematickým slovem (pořádí dáno frekvencí)

Index negativní TC postup u textů TC=0 hledáno první tematické slovo za h- bodem TC neg =(h r ' ' ) h f (r ' ' ) C

Novoroční projevy československých a českých prezidentů 1949 2011 (kromě r. 1993) relativně stabilní žánr

Délka textu versus TC 0 tcu -100 0 500 1000 1500 2000 2500 3000 3500 N

50 tcu 0-50 1945 1955 1965 1975 1985 1995 2005 2015

50 tcu 0 Gottwald, K. Zápotocký, A. Novotný, A. Svoboda, L. Husák, G. Havel, V. Klaus, V. -50 1945 1955 1965 1975 1985 1995 2005 2015

25 20 15 10 5 0-5 -10-15 Gottwald Husák Zápotocký Novotný Svoboda Klaus Havel

Tematická slova 0.04 0.03 procent roce 0.03 0.02 rok lidu TC 0.02 roku lidu 0.01 0.01 roce míru míru plánu lidu lidu hospodářství strany republiky hospodářstvírok 0 1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 roce socialistického lidu lidu roku

0 rok státstát zdí života rok rok rok státu světa rok rok politika evropské negtc -0.01 národy/republice/země společnosti/státu/zemi rok rok dobré/lidí/společnosti/víme/zájmu roku -0.02 1985 1990 1995 2000 2005 2010 2015

Tematická slova AntConc možnost detailní analýzy textu

Výhledy navrhnout statistické testy pro testování rozdílu mezi jednotlivými texty obdobími (např. totalita x demokracie) autory

Děkuji za pozornost! radek.cech@osu.cz www.cechradek.cz