Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

Podobné dokumenty
stylometrický software quita miroslav kubát ff ou ostrava js ostrava

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

UNIVERZITA PALACKÉHO

Frekvence Korelační analýza Jazykové zákony

Úvod do kvantitativní lingvistiky. Radek Čech

Tematická koncentrace textu. Radek Čech

Úvod do kvantitativní lingvistiky. Radek Čech

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Tematická koncentrace textu některé aspekty autorského stylu Ladislava Jehličky 1

MAL. one of the best corroborated law in linguistics

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Moc výkonnná. SOŠ InterDACT s.r.o.

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

Mgr. Radek Čech, Ph.D.

Tomáš Garrigue Masaryk

Výsledky dosažené v roce 2007

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Specializovaný korpus BANÁT a jeho využití

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Českoslovenští prezidenti

RECENZE A ZPRÁVY. Co je v lingvistice nového Whatʼs new in Linguistics

Topospolitické korektnosti v současném českém mediálním diskurzu

Datum Třída Téma hodiny Ověřený materiál - název Téma, charakteristika Autor Ověřil

obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Popisná statistika. Statistika pro sociology

Alternativní nástroje hodnocení vědy. Adéla Jarolímková Národní lékařská knihovna

Datum: Projekt: Využití ICT techniky především v uměleckém vzdělávání Registrační číslo: CZ.1.07/1.5.00/34.

Univerzita Karlova v Praze

státní svátek Den obnovy samostatného českého státu Velikonoční pondělí Den slovanských věrozvěstů Cyrila a Metoděje Den české státnosti

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

Anotace sady digitálních učebních materiálů. Název: Česká literatura

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Základy statistiky. pracovní list. Základní škola Zaječí, okres Břeclav Školní 402, , příspěvková organizace

VALIDACE GEOCHEMICKÝCH MODELŮ POROVNÁNÍM VÝSLEDKŮ TEORETICKÝCH VÝPOČTŮ S VÝSLEDKY MINERALOGICKÝCH A CHEMICKÝCH ZKOUŠEK.

Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.

2. Korpusový portál a volně dostupné nástroje

Common Language Resources and Their Applications

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Zpráva o průběhu přijímacího řízení na vysokých školách pro akademický rok na ČVUT v Praze Fakultě dopravní

Karel Pala, Vít Suchomel

EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost

Zpráva o průběhu přijímacího řízení na vysokých školách pro akademický rok na ČVUT v Praze Fakultě dopravní

ÚSTAV ROMÁNSKÝCH STUDIÍ. Hispanistika urs.ff.cuni.cz

Filozofická fakulta Ostravské univerzity v Ostravě. Informace o přijímacích zkouškách podle studijních programů

Validace metody Colilert-18 pro testování kompostů a podobných matric na přítomnost Escherichia coli

Analýza tematické koncentrace textu: komparace publicistiky Ladislava Jehličky a Karla Čapka*

TULLIO DE MAURO: BIBLIOGRAFICKÉ A KRITICKÉ POZNÁMKY O FERDINANDOVI DE SAUSSUROVI

Zvyšování kvality výuky technických oborů

STATISTICKÉ CHARAKTERISTIKY

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR

Robustní statistické metody

NĚMECKÝ JAZYK A LITERATURA (jednooborové navazující magisterské studium) N 7310 Filologie

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Regulační diagramy (RD)

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Několik teoreticko-metodologických poznámek k Mluvnici současné češtiny *

2. Tzv. samplování. 1 Pozor na cirkularitu: některé genealogické skupiny (např. tzv. uralo-altajská)

Zpráva o průběhu přijímacího řízení na vysokých školách pro akademický rok na ČVUT v Praze Fakultě dopravní

(1) IBRAHIM, R. PLECHÁČ, P. ŘÍHA, J. (2013). Úvod do teorie verše. Praha: Akropolis.

Ing. Jaroslava Syrovátkov. tková Prezident ČR

Pooperační objektivní posouzení hlasu

TECHNICKÁ UNIVERZITA V LIBERCI

Základy popisné statistiky

INTEGROVANÁ STŘEDNÍ ŠKOLA TECHNICKÁ BENEŠOV. Černoleská 1997, Benešov. Elektrická měření. Tematický okruh. Měření elektrických veličin.

Úloha č. 1 Odměřování objemů, ředění roztoků Strana 1. Úkol 1. Ředění roztoků. Teoretický úvod - viz návod

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností

Den otevřených dveří Katedra české literatury a literární vědy Katedra českého jazyka

průměrný percentil za části testu odchylka skóre analytická verbální směrodatná

Posouzení přesnosti měření

Časopis Sociální pedagogika Social Education

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Inovace: Posílení mezipředmětových vztahů, využití multimediální techniky, využití ICT.

Analýza staročeské morfologie v Excelu

Online informační zdroje na FHS UTB ve Zlíně

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Úvod do teorie měření. Eva Hejnová

ÚHLŮ METODY MĚŘENÍ ÚHLŮ A SMĚRŮ CHYBY PŘI MĚŘENÍ ÚHLŮ A SMĚRŮ

NLP & strojové učení

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Zpráva o průběhu přijímacího řízení na vysokých školách pro akademický rok na ČVUT v Praze Fakultě dopravní

Psychometrické vlastnosti Rosenbergovy škály sebehodnocení. Jaroslava Suchá, Martin Dolejš, Ondřej Skopal, Lucie Vavrysová

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: literární výchova - ročník: PRIMA Výstupy Téma

FUNKČNÍ STYLY. MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/

343/2002 Sb. VYHLÁŠKA. Ministerstva školství, mládeže a tělovýchovy

Nejistota měř. ěření, návaznost a kontrola kvality. Miroslav Janošík

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman


Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová

přesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod

CLIL inovativní přístup nejen k výuce cizích jazyků

Univerzita Pardubice 8. licenční studium chemometrie

Paleodemografie PDEM

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Psaní textů (PSATE) Úvodní seminář. Zpracování bibliografického údaje. Parafráze odborného textu.

Transkript:

Kvantitativní analýza textu miroslav kubát FF OU Ostrava

Kvantitativní lingvistika Hledání zákonů v jazyce (např. MAL) Nalezení jazykové teorie. Korpusová lingvistika. Klasifikace textů, určování autorství apod. Automatické překlady apod. Textové analýzy, stylometrie.

Stylometrické metody Lingvisticky interpretovatelné (slovní bohatství, tematická koncentrace, délka tokenu, vzdálenosti sloves, aktivita & deskriptivita textu). Lingvisticky neinterpretovatelné (klastrové analýzy n-gramů či nejfrekventovanějších slov apod.)

Lingvisticky interpretovatelné metody Výhody: víme přesně, co měříme, nové poznatky pro lingvistiku. Nevýhody relativně nízká přesnost, relativně triviální.

Lingvisticky neinterpretovatelné metody Výhody: vysoká přesnost, úspěšná aplikace zejména v určování autorství a automatické klasifikaci textů. Nevýhody nevíme přesně co měříme, minimální poznatky pro lingvistiku.

Výběrový soubor aneb Korpus Hledisko kvantitativní Hledisko kvalitativní

Výběrový soubor aneb Korpus Neexistuje reprezentativní korpus žádného jazyka, navzdory tvrzení ČNK: Korpus SYN2005 je synchronní reprezentativní korpus současné psané češtiny. SYN2000 je synchronní korpus, to znamená, že je v něm zachycen současný český jazyk. Do korpusu jsou ovšem zařazena i významná díla české literatury, která vznikla před rokem 1990 (například Krakatit Karla Čapka, nebo Zbabělci Josefa Škvoreckého).

Korpus SYN 2000 60 % 25 % 15 % publicistika odborná literatura beletrie

Korpus SYN 2005 40 % beletrie 33 % publicistika 27 % odborná literatura

Vhodný výběrový soubor Pouze specializovaný korpus může sloužit jako relevantní vzorek pro výzkum. Např. texty jediného autora v žánrové analýze.

Co je text? ČNK: Tento korpus (SYN2000) je vytvořený z celých textů. Je sbírka povídek, básní či celý román jeden text? A jak je to s kolektivním autorstvím? Mnoho textů je stejný mix jako korpus!

Jaký text je vhodný pro analýzu jazyka? Novinový článek? Beletrie? Překlady? Mluvený text? Twitter? Blog? A jak je to s dramaty?

Proces vytváření novinového článku

Za text považuji Kapitolu románu. Povídku. Báseň. Dopis. Pohádku. Článek.

Přirozené vs. umělé jednotky Přirozené (foném, slabika, morfém, slovo) Umělé jednotky (n-gramy, délkové motivy) Něco mezi (grafémy, hreby)

Author s Multilevel N-gram Profile (AMNP) by George Mikros Word 3-grams Semantics Word 2-grams Syntax Character 3- grams Morphology Character 2-grams Phonology GEORGE MIKROS IQLA-GIAT Summer School in Quantitative Analysis of Textual Data University of Padua, 16-20 September 2013 16

Slovní bohatství Poměr různých slov v textu k celkové délce textu. ( ) vždy veselo bývalo v Kyjově, vždy veselo v Kyjově bude ( ) P. Bezruč: Kyjov TTR = V N = 6 10 =0.6

TTR Type-Token Ratio (TTR) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0 1000 2000 3000 4000 5000 6000 text size (N)

Eliminace vlivu délky textu A) omezení textu na prvních n slov. B) upravit rovnici pro výpočet. C) Něco mezi (MATTR).

Moving Average Type-Token Ratio (MATTR) Moving Average Type-Token Ratio (MATTR) MATTR L = N L i=1 V i L(N L + 1) N délka textu L délka okna Vi počet typů v okně

Vyhodnocení Statistický test: u = X 1 X 2 s 2 1 n1 +s 2 n2 X 1, X 2...aritmetický průměr skupiny S 1, S 2 směrodatná odchylka n 1, n 2 počet výsledků ve skupině

MATTR Moving Average Type-Token Ratio (MATTR) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0 1000 2000 3000 4000 5000 6000 text size (N)

Intuice vs. intersubjektivita Určete pořadí následujících žánrů podle slovního bohatství: o Román o Cestopis o Novinový sloupek o Dopis o Pohádka o Báseň o Odborná studie o Povídka

MATTR Slovní bohatství (MATTR) 0.8 0.79 0.78 0.77 0.76 0.75 0.74 cestopis sloupek povídka román dopis báseň studie pohádka

MATTR výsledky u-testu mezi žánry, signifikantní rozdíly (u 1,96) román povídka cestopis studie sloupek pohádka dopis román x povídka 1,35 x cestopis 3,31 1,57 x studie 5,04 5,78 7,64 x sloupek 1,63 0,24 1,33 6,05 x pohádka 7,14 7,68 9,04 3,13 7,88 x dopis 0,07 1,10 2,47 4,01 1,31 6,25 x báseň 1,00 1,44 1,99 0,94 1,54 2,57 0,94

Intuice vs. intersubjektivita Jazyk totality, např. newspeak v Orwellově románu Nineteen Eighty-Four. Určete pořadí novoročních a vánočních projevů československých a českých prezidentů podle slovního bohatství.

Prezidenti Masaryk Beneš Hácha Gottwald Zápotocký Novotný Svoboda Husák Havel Klaus Zeman

MATTR prezidenti 0.88 0.86 0.84 0.82 0.8 0.78 0.76 0.74 0.72 0.7 0.68

MATTR prezidenti 0.88 0.86 0.84 0.82 0.8 0.78 0.76 0.74 0.72 0.7 0.68

Moving Window Type-Token Ratio (MWTTR)

% Výsledné hodnoty MWTTRD v žánrech. 0.1 0.09 0.08 0.07 0.06 0.05 0.04 román povídka cestopis studie sloupek pohádka dopis báseň 0.03 0.02 0.01 0 60 65 70 75 80 85 90 počet typů v 100 tokenech

Quantitative Index Text Analyzer QUITA

Literatura Čech, R., Popescu, I. I., Altmann, G. (2014). Metody kvantitativní analýzy (nejen) básnických textů. Olomouc: Univerzita Palackého v Olomouci. Čech, R. (2014). Jen popis čísly? Perspektivy korpusové lingvistiky. Naše řeč, 97(4 5), s. 171 184. Chromý, J. (2014). Korpus a reprezentativnost. Naše řeč 97(4 5), s. 185 193. Kubát, M., Matlach, V., Čech, R. (2014). QUITA Quantitative Index Text Analyzer. Lüdenscheid: RAM. Mikros, G. K., & Perifanos, Kostas. (2013). Authorship attribution in Greek tweets using multilevel author s n- gram profiles. In: E. Hovy, V. Markman, C. H. Martell & D. Uthus (eds.), Papers from the 2013 AAAI Spring Symposium "Analyzing Microtext", 25 27 March 2013, Stanford, California. Palo Alto, California: AAAI Press, s. 17 23.

Literatura Popescu, I. I., Altmann, G., Grzybek, P., Jayaram, B. D., Köhler, R., Krupa, V., Mačutek, J., Pustet, R., Uhlířová, L., Vidya, M. N. (2009). Word frequency studies. Berlin/New York: Mouton de Gruyter. Wimmer, G., Altmann, G., Hřebíček, L., Ondrejovič, S., Wimmerová, S. (2003). Úvod do analýzy textov. Bratislava: Veda. Těšitelová, M. (1987). Kvantitativní lingvistika. Praha: SPN.

Literatura Covington, M. A., McFall J. D. (2008). The Moving-Average Type-Token Ratio. Presented as a poster at the Annual Meeting of the Linguistic Society of America. Covington, M. A., McFall J. D. (2010). Cutting the Gordian Knot: The Moving-Average Type-Token Ratio (MATTR). Journal of Quantitative Linguistics, 17(2), 94 100. Köhler, R., Gale,M. (1993): Dynamic Aspects of Text Characteristics. In L.Hřebíček, G. Altmann (eds.) Quantitative Text Analysis. Trier, Wissenschaftlicher Verlag, 46 53. Milička, J. (2013). MaWaTaTaRaD. Prague. (Software) Scott, M. (2013). WordSmith Tools. Liverpool: Lexical Analysis Software. Kubát, M., Milička, J. (2013). Vocabulary Richness Measure in Genres. Journal of Quantitative Linguistics, 20(4), 339 349.