Úvod do kvantitativní lingvistiky. Radek Čech

Podobné dokumenty
Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Úvod do kvantitativní lingvistiky. Radek Čech

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

MAL. one of the best corroborated law in linguistics

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

4ST201 STATISTIKA CVIČENÍ Č. 7

Testy statistických hypotéz

Testování statistických hypotéz

Sociologický výzkum (stručný úvod) Michal Peliš

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Frekvence Korelační analýza Jazykové zákony

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Projekt výzkumu v graduační práci

GEN104 Koncipování empirického výzkumu

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Pravděpodobnost, náhoda, kostky

You created this PDF from an application that is not licensed to print to novapdf printer (

JAK INTERPRETOVAT VÝZKUMNÁ DATA

Testy. Pavel Provinský. 19. listopadu 2013

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Mgr. Radek Čech, Ph.D.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Cvičení ze statistiky - 9. Filip Děchtěrenko

TECHNICKÁ UNIVERZITA V LIBERCI

Příklad: Test nezávislosti kategoriálních znaků

Náhodné (statistické) chyby přímých měření

formulujte hypotézy z následujících výzkumných problémů

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Úvod do problematiky měření

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Tomáš Karel LS 2012/2013

Statistické metody v medicíně II. - p-hodnota

Tomáš Karel LS 2012/2013

ČVUT FAKULTA DOPRAVNÍ

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Výzkumný problém. Přednášky ze Základů pedagogické metodologie Kateřina Vlčková, PdF MU Brno

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

HYPOTÉZY. Kvantitativní výzkum není nic jiného než testování hypotéz. (Disman 2002, s. 76) DEDUKCE (kvantitativní přístup)

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

Dotazník výzkumného šetření. 2. Uveďte nejvyšší stupeň dosaženého vzdělání? základní střední bez maturity / vyučen střední s maturitou vysokoškolské

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

2 ) 4, Φ 1 (1 0,005)

Stručný úvod do testování statistických hypotéz

České vysoké učení technické v Praze Fakulta dopravní

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Cvičení ze statistiky - 8. Filip Děchtěrenko

Tematická koncentrace textu. Radek Čech

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Pravděpodobnost a statistika (BI-PST) Cvičení č. 1

Fisherův exaktní test

ZÁKLADNÍ METODOLOGICKÁ PRAVIDLA PŘI ZPRACOVÁNÍ ODBORNÉHO TEXTU. Martina Cirbusová (z prezentace doc. Škopa)

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Metodologie Kinantropologie

Testování hypotéz. 4. přednáška

Pravděpodobnost a aplikovaná statistika

Stav a možná implementace DRG v zásadních otázkách

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Pravděpodobnost a matematická statistika

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Očekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)

Pravděpodobnost, náhoda, kostky

Základy počtu pravděpodobnosti a metod matematické statistiky

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Normální (Gaussovo) rozdělení

Bakalářský seminář - 3

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

7.1. Podstata testu statistické hypotézy

Testování statistických hypotéz. Obecný postup

Testování statistických hypotéz

15. T e s t o v á n í h y p o t é z

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Téma číslo 5 Základy zkoumání v pedagogice II (metody) Pavel Doulík, Úvod do pedagogiky

Tomáš Karel LS 2012/2013

ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

. Filozofické problémy přírodních věd Teorie a zákon. Lukáš Richterek. lukas.richterek@upol.cz. Podklad k předmětu KEF/FPPV

4EK211 Základy ekonometrie

Transkript:

Úvod do kvantitativní lingvistiky Radek Čech

Historie KL G. K. Zipf (1902-1950) PLK B. Trnka (problematika těsnopisu) M. Těšitelová a kol. G. Altmann, R. Köhler, L. Hřebíček

Místo KL v lingvistice cíle lingvistiky (obecně) metody lingvistiky (obecně) předmět lingvistiky (obecně)

Základní rysy KL cílem nikoliv popis (klasifikace) jednotek jazykového systému, ale vytvoření modelu, jehož vlastnosti jsou založeny na empiricky testovatelných hypotézách lingvistika jako experimentální věda

KL (teorie) verbální formulace hypotézy + operacionalizace matematická formalizace experiment matematické vyhodnocení experimentu lingvistická explanace

Kvantitativní lingvistika Co je teorie? Jak poznat, která teorie je lepší než jiná? Plyne něco z teorie? Lingvistické teorie?

KL (teorie) verbální formulace hypotézy + operacionalizace matematická formalizace experiment matematické vyhodnocení experimentu lingvistická explanace

Kvantitativní lingvistika Co je hypotéza? Formální vlastností hypotézy? Lingvistické hypotézy

Hypotéza která tvrzení jsou/nejsou testovatelnými hypotézami? 1. hodně mužů má pleš 2. pokud se v knize vyskytují biblický příběh, je to apokryf 3. jestli se zavedou řidičáky na zkoušku, může se snížit nehodovost mladých řidičů a řidiček 4. muži mají častěji pleš než ženy 5. jestliže se je sloveso dokonavé, častěji se na něj váže přímý akuzativní předmět než na sloveso nedokonavé 6. ženy jsou citlivé 7. čím je slovo frekventovanější, tím je větší jeho polysémie 8. jestli se zavedou řidičáky na zkoušku, sníží se nehodovost mladých řidičů a řidiček 9. nářečí často ovlivňují podobu mluveného jazyka obyvatel dané nářeční oblasti

KL (teorie) verbální formulace hypotézy + operacionalizace matematická formalizace experiment matematické vyhodnocení experimentu lingvistická explanace

Kvantitativní lingvistika Operacionalizace vs. klasifikace Způsoby klasifikace jevů V(A) = V(B), nebo V(A) V(B). V(A) > V(B), nebo V(A) = V(B), nebo V(A) < V(B) V(A) V(B) = d

Operacionalizace je třeba jasně a jednoznačně definovat proměnné, mezi kterými se předpokládá závislost H: čím je slovo frekventovanější, tím je polysémnější v čem může být problém?

Operacionalizace je třeba jasně a jednoznačně definovat proměnné, mezi kterými se předpokládá závislost H: čím je slovo frekventovanější, tím je polysémnější frekvence: je třeba jasně uvést co se myslí slovem jak se budou počítat frekvence polysémie: je třeba uvést jak se bude polysémie kvantifikovat

Operacionalizace H: ženy mají větší pasivní slovní zásobu než muži jak definovat pasivní slovní zásobu?

Operacionalizace špatná operacionalizace znehodnocuje celou analýzu H: subjekt je v češtině v průměru delší než objekt Muž v triku veze naše dopisy pokuste se formulovat některé problémy s určováním délky

Operacionalizace špatná operacionalizace znehodnocuje celou analýzu H: subjekt je v češtině v průměru delší než objekt Muž v triku veze naše dopisy některé problémy s určováním délky: rozvitý vs. nerozvitý subjekt/objekt? počet slov? počet slabik? počet morfémů? je neslabičná předložka samostatným slovem? způsob měření ovlivňuje podobu výsledku!!!

KL (teorie) verbální formulace hypotézy + operacionalizace matematická formalizace experiment matematické vyhodnocení experimentu lingvistická explanace

Kvantitativní lingvistika Matematická formalizace vyjádření sledovaných vlastností čísly např. frekvenční distribuce, vztah mezi dvěma vlastnostmi atp.

Matematická formalizace hypotéza čím více morfo-fonetických změn se v daném tvaru slova projevuje (vzhledem k nominativu), tím menší je jeho frekvence zdůvodnění Minimisation of producing, encoding, memory effort (speaker) Minimisation of decoding, (hearer) the conserving effect of token frequency

Matematická formalizace počet změn f 0 11847 1 6356 2 2616 3 447 4 25

KL (teorie) verbální formulace hypotézy + operacionalizace matematická formalizace experiment matematické vyhodnocení experimentu lingvistická explanace

Kvantitativní lingvistika Co je experiment? vlastnosti chyby replikace

KL (teorie) verbální formulace hypotézy + operacionalizace matematická formalizace experiment matematické vyhodnocení experimentu lingvistická explanace

Kvantitativní lingvistika Matematické vyhodnocení experimentu náhoda vs. mechanismus statistický test

Statistické testy významnosti testuje se pravděpodobnost toho, zda je pozorovaná závislost způsobena náhodou, či ne hod mincí (100x) pokud padne 50x panna a 50x orel, nepředpokládá se, že by někdo podváděl pokud padne 52x panna a 48x orel, nepředpokládá se, že by někdo podváděl padne-li však 98x panna, dá se předpokládat, že někdo podvádí a co když padne panna 59x nebo 60x nebo 61x nebo 62x?

Statistické testy významnosti dá se spočítat (srov. např. Greis 2010, s. 33nn), že pokud padne panna 61x, tak je větší než 95procentní pravděpodobnost, že jeden z hráčů podvádí jinými slovy: pravděpodobnost, že budeme neoprávněně tvrdit, že jeden z hráčů nepodvádí, je menší než 5procentní

Statistické testy významnosti porovnávají se dvě hypotézy nulová hypotéza: tvrzení, které obvykle deklaruje žádný rozdíl, tj. nalezený rozdíl je dán variablitou dat, náhodou (např. mince není falešná; mezi formou jazyka a četností užívaní bychom/bysme není rozdíl) alternativní hypotéza: situace, kdy nulová hypotéza neplatí, tj. mezi proměnnými se předpokládá závislost; důležité je přitom nějaké teoretické zdůvodnění

Statistické testy významnosti hladina významnosti pravděpodobnost, že se zamítne nulová hypotéza, ačkoliv ona platí obvykle 5 % (0,05) nebo 1 % (0,01)

Chí-kvadrát test dobré shody příklad: předpokládáme, že v románech se bude častěji používat nespisovná varianta slova bychom než v publicistických textech proměnnými jsou: a) typ textu; b) varianta slova H 0 : mezi typem textu a používáním nespisovné varianty slova bychom není žádný vztah H 1 : mezi typem textu a používáním nespisovné varianty slova bychom je vztah, tj. tato forma se častěji vyskytuje v próze

Chí-kvadrát test dobré shody SYN2005nov (romány) SYN2005pub (publicistika) bychom 5260 6679 bysme 714 39 % bysme 13,6 0,6 SYN2005nov (romány) SYN2005col (povídky) bychom 5260 1660 bysme 714 136 % bysme 13,6 8,2

Chí-kvadrát test dobré shody SYN2005nov (romány) SYN2005pub (publicistika) bychom 5260 6679 bysme 714 39 % bysme 13,6 0,6 p = 0,00000000000000022 SYN2005nov (romány) SYN2005col (povídky) bychom 5260 1660 bysme 714 136 % bysme 13,6 8,2

Chí-kvadrát test dobré shody SYN2005nov (romány) SYN2005pub (publicistika) bychom 5260 6679 bysme 714 39 % bysme 13,6 0,6 p = 0,00000000000000022 SYN2005nov (romány) SYN2005col (povídky) bychom 5260 1660 bysme 714 136 % bysme 13,6 8,2 p = 0,0000001851

Statistické testy významnosti někteří lingvisté (vesměs korpusoví) jsou přesvědčeni, že čím více dat máme k dispozici, tím lépe Sinclair: The more, the better! z hlediska použitelnosti statistických testů to však neplatí, srov. Rietvield T. et al.: Pitfalls in Corpus Research. Computers and the Humanities 38: 343 362, 2004.

Statistické testy významnosti romány novely Σ % novely konstrukce A 500000 501800 1001800 50,09% konstrukce B 501500 500000 1001500 49,93% Σ 1001500 1001800 2003300 chi^2 = 5.43, p=0,020

KL (teorie) verbální formulace hypotézy + operacionalizace matematická formalizace experiment matematické vyhodnocení experimentu lingvistická explanace

Kvantitativní lingvistika popis vs. interpretace vs. explanace

Kvantitativní lingvistika International Quantitative Linguistics Association (http://www.iqla.org/) journals: Journal of Quantitative Linguistics (http://www.tandfonline.com/action/journalinformation?show=aimsscope&journalcod e=njql20#.uytfjfl5om4) Glottotheory (http://www.degruyter.com/view/j/glot) Glottometrics (http://www.ram-verlag.eu/journals-e-journals/glottometrics/) book series Quantitative Linguistics (de Gruyter) Studies in Quantitative Linguistics (RAM-Verlag)

Kvantitativní lingvistika

Děkuji za pozornost! (www.cechradek.cz)