Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

Podobné dokumenty
Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Úvod do kvantitativní lingvistiky. Radek Čech

Úvod do kvantitativní lingvistiky. Radek Čech

Tematická koncentrace textu. Radek Čech

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Sociologický výzkum (stručný úvod) Michal Peliš

HYPOTÉZY. Kvantitativní výzkum není nic jiného než testování hypotéz. (Disman 2002, s. 76) DEDUKCE (kvantitativní přístup)

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

MAL. one of the best corroborated law in linguistics

ZÁKLADNÍ METODOLOGICKÁ PRAVIDLA PŘI ZPRACOVÁNÍ ODBORNÉHO TEXTU. Martina Cirbusová (z prezentace doc. Škopa)

MODERNÍ MARKETINGOVÝ VÝZKUM

PSY401 Metodologie v psychologii Designy kvantitativního výzkumu*

Verbální inteligence Numerická inteligence Figurální inteligence Inteligence (celková úroveň poznávacích schopností) Paměť

Teoreticko-metodologický seminář. Zdeňka Jastrzembská

Testování statistických hypotéz

Statistické metody v medicíně II. - p-hodnota

Název Autor Jitka Debnárová Vedoucí práce Mgr. Petra Vondráčková, Ph.D. Oponent práce Mgr. Lenka Reichelová

GEN104 Koncipování empirického výzkumu

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

ASK. Test deduktivního a kreativního myšlení. HTS Report. Jan Ukázka ID Datum administrace Standard 1. vydání

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

VALIDACE GEOCHEMICKÝCH MODELŮ POROVNÁNÍM VÝSLEDKŮ TEORETICKÝCH VÝPOČTŮ S VÝSLEDKY MINERALOGICKÝCH A CHEMICKÝCH ZKOUŠEK.

Projekt výzkumu v graduační práci

Metodologie Kinantropologie

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Stručný úvod do testování statistických hypotéz

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

JAK INTERPRETOVAT VÝZKUMNÁ DATA

Marketingové aplikace. Doc. Ing.Vladimír Chalupský, CSc., MBA

Testy statistických hypotéz

Neparametrické metody

Psychologická diagnostika

Seminář k absolventské práci

PEDAGOGIKA: OKRUHY OTÁZEK Státní závěrečná zkouška bakalářská

Bakalářky. Cyril Brom

SOCIÁLNÍ PEDAGOGIKA A PORADENSTVÍ: OKRUHY OTÁZEK Státní závěrečná zkouška bakalářská

PLÁN KOMBINOVANÉHO STUDIA

Vysoká škola technická a ekonomická v Českých Budějovicích. Diplomová práce. Titul, jméno a příjmení autora. Rok odevzdání

Přehled výzkumných metod

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 8. Průřezová témata Mezipředmětové vztahy.

Téma číslo 5 Základy zkoumání v pedagogice II (metody) Pavel Doulík, Úvod do pedagogiky

Příprava na Cambridge English

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

I-S-T 2000 R. Test struktury inteligence IST R. HTS Report. Jan Ukázka ID Datum administrace Standard A 1.

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

4ST201 STATISTIKA CVIČENÍ Č. 7

Vztahy v rodině z pohledu dětí

MAPA VÝZKUMU 13/03/2015 1

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

5EN306 Aplikované kvantitativní metody I

You created this PDF from an application that is not licensed to print to novapdf printer (

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Výzkumný problém. Přednášky ze Základů pedagogické metodologie Kateřina Vlčková, PdF MU Brno

Kvantitativní metody výzkumu v praxi PRAKTIKUM. Příprava výzkumného projektu

Metody a techniky využitelné pro sociální zjišťování na venkově

Základní škola ve Vamberku. Tematický plán učiva ČESKÝ JAZYK PRO 8. ROČNÍK. Václav Strážnický 2014/15

Jednodětnost v České republice. Hana Hašková, Radka Dudová, Kristýna Pospíšilová Sociologický ústav AV ČR, v.v.i.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Ing. Michael Rost, Ph.D.

= = 2368

Terminologie ve výzkumu. Markéta Vojtová VOŠZ a SZŠ Hradec Králové

Cíle korelační studie

Šárka Laboutková Pavla Bednářová. Technická univerzita v Liberci

Jednofaktorová analýza rozptylu

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Vliv povrchových nerovností na utváření velmi tenkých mazacích filmů na hranici přechodu do smíšeného mazání

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Bakalářský seminář - 3

Charakteristika knihy úrovně 3 (Carter: Škola malého stromu) Materiál vzniklý v rámci projektu LIFT2

Metody přírodních věd aplikované na vědy sociální: předpoklad, že lidské chování můžeme do jisté míry měřit a předpovídat.

Rozsah: minimálně 4 strany formátu A4 - (bez příloh) - jedna strana textu znamená jeden list A4, rozsah teoretické části: maximálně na 4 strany

Církev ve světle druhého příchodu Ježíše Krista

Návrh a vyhodnocení experimentu

Bakalářské studium otázky ke státním bakalářským zkouškám. Sociologie

LIMITY APLIKACE STATISTICKÝCH TESTŮ VÝZNAMNOSTI V PEDAGOGICKÉM VÝZKUMU: SEMINÁŘ PRO NESTATISTIKY

OPAKOVÁNÍ SLOHOVÝCH ÚTVARŮ I. Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Bakalářky. Cyril Brom

7. Rozdělení pravděpodobnosti ve statistice

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Standard pro písemné práce k bakalářské zkoušce

Využití indikátorů při hodnocení spravedlivosti vzdělávacích systémů

4EK211 Základy ekonometrie

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Juxtapozice z do v Arabštině

Morfologie odborných textů

respondent se nemohl vracet zpět k vyplněným otázkám povinné otázky, filtrační otázky, otevřené otázky

NNÍ SYNERGIE V DOPRAVĚ

Obsah. Předmluva... IX. Seznam obrázků... XIX. Seznam tabulek... XXIII

Téma číslo 4 Základy zkoumání v pedagogice I. Pavel Doulík, Úvod do pedagogiky

PROHLOUBENÍ NABÍDKY DALŠÍHO VZDĚLÁVÁNÍ NA VŠPJ A SVOŠS V JIHLAVĚ

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Transkript:

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech http://www.cechradek.cz

Kvantitativní analýza textu kvantifikace a její důsledky kvantifikace a operacionalizace případ volby jazykových jednotek aneb každá volba je špatná sekundární tematická koncentrace textu QUITA software pro kvantitativní analýzu textů

Význam kvantifikace nekvantifikovaný popis V(A) = V(B), nebo V(A) V(B) V vlastnost A, B pozorované jevy co znamená kvantifikovat? označení vlastnosti číslem V(A) V(B) = d d rozdíl hodnot jak interpretovat d?

Význam kvantifikace v textologii (Čechová et al. 2008, s. 218)

SYN 2010 ODB (SYN2010) SYN2010 (bez ODB) pořadí POS f % pořadí POS f % 1 subst. 8908919 32.94 1 subst. 20899938 28.73 2 verb. 4074532 15.07 2 verb. 13753983 18.90 3 adj. 3782195 13.99 3 pron. 8837590 12.15 4 prep. 2907295 10.75 4 prep. 7785085 10.70 5 pron. 2431471 8.99 5 adj. 7301172 10.03 6 konj. 2079657 7.69 6 konj. 5733385 7.88 7 adv. 1667110 6.16 7 adv. 5442020 7.48 8 num. 821434 3.04 8 num. 1825676 2.51 9 part. 365034 1.35 9 part. 1117393 1.54 10 inter. 6118 0.02 10 inter. 61697 0.08 27043765 100 72757939 100

SYN 2010 ODB (SYN2010) PUB (SYN2010) pořadí POS f % pořadí POS f % 1 subst. 8908919 32.94 1 subst. 11322190 34.17 2 verb. 4074532 15.07 2 verb. 5328752 16.08 3 adj. 3782195 13.99 3 prep. 3879399 11.71 4 prep. 2907295 10.75 4 adj. 3870151 11.68 5 pron. 2431471 8.99 5 pron. 2861782 8.64 6 konj. 2079657 7.69 6 konj. 2199028 6.64 7 adv. 1667110 6.16 7 adv. 2044801 6.17 8 num. 821434 3.04 8 num. 1170565 3.53 9 part. 365034 1.35 9 part. 449945 1.36 10 inter. 6118 0.02 10 inter. 5528 0.02 27043765 100 33132141 100.00

Biber et al. (1999): Longman Grammar of Spoken and Written English

Význam kvantifikace v textologii každá smysluplná kvantifikace je založena na předpokladu, že rozdíly hodnot u sledované vlastnosti jsou ve vztahu k jiné vlastnosti, např. délka slova vs. polysémie typ textu vs. výskyt slovních druhů důsledky vlastnosti jazyka, které jsou mnohdy popisovány izolovaně, jsou interpretovány ve vzájemných vztazích kvantifikace stanovuje velikost rozdílu jak zjištěné velikosti interpretovat?

Interpretace kvantifikace převažuje procentuální vyjádření rozdílů většinou doplněné komentáři typu: pozorovaný rozdíl je malý, větší, téměř stejný, že se velmi liší apod. jak velký rozdíl je malý, velký?

Proporce subst., adj. a verb v různých typech textu (SYN 2010) ODB PUB BEL substantiva 32,94 % 34,17 % 24,17 % verba 15,07 % 16,08 % 21,26 % adjektiva 13,99 % 11,68 % 8,66 %

Od popisu k hypotéze předpokládaný vztah mezi dvěma vlastnostmi = působení mechanismu zaměříme-li na vztahy mezi vlastnostmi, překračujeme hranice popisu jednotek směrem k odhalování toho, proč jsou sledované vlastnosti oněch jednotek takové, jaké jsou nástrojem analýzy tohoto typu je empiricky testovatelná hypotéza

Hypotéza hypotéza (Greis 2009, s. 11) tvrzení, které se týká více než jednoho jevu či případu; má alespoň implicitně strukturu podmínkového souvětí, tj. jestliže, pak, případně čím, tím (např. čím je slovo frekventovanější, tím je kratší); je falzifikovatelné (tj. vyvratitelné) prostřednictvím experimentu, který dovoluje rozhodnout, zda predikce formulovaná prostřednictvím hypotézy je vyvrácena, či ne (vyhodnocení se většinou experimentu pomocí statistických testů).

Hypotéza která tvrzení jsou/nejsou testovatelnými hypotézami? 1. hodně mužů má pleš 2. pokud se v knize vyskytují biblický příběh, je to apokryf 3. jestli se zavedou řidičáky na zkoušku, může se snížit nehodovost mladých řidičů a řidiček 4. muži mají častěji pleš než ženy 5. jestliže se je sloveso dokonavé, častěji se na něj váže přímý akuzativní předmět než na sloveso nedokonavé 6. ženy jsou citlivé 7. čím je slovo frekventovanější, tím je větší jeho polysémie 8. jestli se zavedou řidičáky na zkoušku, sníží se nehodovost mladých řidičů a řidiček 9. nářečí často ovlivňují podobu mluveného jazyka obyvatel dané nářeční oblasti

Od popisu k hypotéze klasifikace jevů klasifikace + kvantifikace + verbální interpretace pozorovaných rozdílů snaha po hlubší interpretaci pozorovaných rozdílů = = hlavní pozornost zaměřena již nikoliv na jevy samotné, ale na vztahy mezi nimi (mechanismy) hypotéza testování hypotéz (experiment) + statistická interpretace výsledků (?teorie?)

Experimentální přístup výhody replikovatelnost pokud testujeme stejnou hypotézu na různých jazycích můžeme dospět k jazykovému zákonu vyvrácení hypotézy nemusí vždy znamenat neplatnost celé hypotézy, ale jen odhalení tzv. hraničních podmínek intersubjektivita nevýhody redukcionismus specifické nároky (technické prostředky, aplikace statistiky atp.), se kterými se běžně školený lingvista musí vyrovnat

Operacionalizace a její problémy H 0 : subjekt není v češtině v průměru delší než objekt H 1 : subjekt je v češtině v průměru delší než objekt Muž v triku veze naše dopisy

Operacionalizace a její problémy v kvantitativní analýze textů volba jazykových jednotek při analýzy tematické koncentrace textů

Volba jazykových jednotek slovní tvar lemma škola jednotka zahrnující synonyma koreferenční jednotka hreb (sémantický agregát)

Slovní tvary vs. lemmata text slovní tvary lemmata Často (poezie) 0,0294 0 Filosofové (poezie) 0,1905 0,0476 Hlubokým (poezie) 0 0,0457 Dopis Olze 01 0 0 Dopis Olze 11 0,0048 0,0022 Dopis Olze 19 0 0,0217 Role českého prezidenta (článek) 0,0188 0,0823 Průchod spravedlnosti (článek) 0,1125 0,1105 Šifra socialismus (esej) 0,0063 0,0583

Hreb hreb ja vedieť objatie elemnty {počítam, som, stávam sa, bojím sa, obaja, vieme, nás, ma, ja, cítim, mne, mi, ma, ja, cítim, dúfam, dúfame, som, som, nemôžeme, ľúbim, neviem, neviem, neviem, budem, budeme, plačem, smejem sa, dúfam, naša} {vieme, neviem, neviem, neviem} {to, objatie, ktoré, ktoré}

Operacionalizace a její problémy v kvantitativní analýze textů je nezbytné prezentovat detailní metodologický postup (v ideálním případě přiložit technickou zprávu) často/většinou nemáme kritéria pro správnou volbu

Sekundární tematická koncentrace nulové hodnoty tematické koncentrace z teoretického hlediska nejsou problém omezují použití tohoto typu analýzy text (lemmatizováno) Bělorusko, náš nový východní soused Co si opravdu myslím o stíhačkách? TK Diktátoři porozumí jen síle 0 Dozrál čas 0 Historická šance pro naši zemi - nepromarněme ji! 0 0 0,0271 Litomyšlské znaky 0 Nepodléhejme rétorice diktátora Castra 0 Svět bez Zdeňka 0,0359 Ztráta paměti? 0,0693 Co je to Hrad? Prostě jímka! 0,0688

Sekundární tematická koncentrace STK = 2h r =1 (2h r )f(r ) h 2h 1 f(1)

Sekundární tematická koncentrace text (lemmatizováno) TK STK Bělorusko, náš nový východní soused 0 0,0515 Co si opravdu myslím o stíhačkách? 0 0,0113 Diktátoři porozumí jen síle 0 0,0568 Dozrál čas 0 0,0171 Historická šance pro naši zemi - nepromarněme ji! 0,0271 0,0416 Litomyšlské znaky 0 0,0189 Nepodléhejme rétorice diktátora Castra 0 0,0127 Svět bez Zdeňka 0,0359 0,0299 Ztráta paměti? 0,0693 0,0552 Co je to Hrad? Prostě jímka! 0,0688 0,0753

QUITA software pro kvant. analýzu textů dostupný na https://code.google.com/p/oltk/ stručné charakteristika zde: http://www.cechradek.cz/publ/2014_kubat_etal_ QUITA.pdf