Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Podobné dokumenty
Úvod do kvantitativní lingvistiky. Radek Čech

Úvod do kvantitativní lingvistiky. Radek Čech

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

4ST201 STATISTIKA CVIČENÍ Č. 7

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Sociologický výzkum (stručný úvod) Michal Peliš

Testy statistických hypotéz

Projekt výzkumu v graduační práci

Testování statistických hypotéz

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

GEN104 Koncipování empirického výzkumu

You created this PDF from an application that is not licensed to print to novapdf printer (

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Dotazník výzkumného šetření. 2. Uveďte nejvyšší stupeň dosaženého vzdělání? základní střední bez maturity / vyučen střední s maturitou vysokoškolské

Náhodné (statistické) chyby přímých měření

JAK INTERPRETOVAT VÝZKUMNÁ DATA

TECHNICKÁ UNIVERZITA V LIBERCI

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Cvičení ze statistiky - 9. Filip Děchtěrenko

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Fisherův exaktní test

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Statistika, Biostatistika pro kombinované studium. Jan Kracík

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

HYPOTÉZY. Kvantitativní výzkum není nic jiného než testování hypotéz. (Disman 2002, s. 76) DEDUKCE (kvantitativní přístup)

Pravděpodobnost, náhoda, kostky

formulujte hypotézy z následujících výzkumných problémů

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

České vysoké učení technické v Praze Fakulta dopravní

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Tomáš Karel LS 2012/2013

Příklad: Test nezávislosti kategoriálních znaků

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

ČVUT FAKULTA DOPRAVNÍ

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Testování hypotéz o parametrech regresního modelu

Testování statistických hypotéz

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Testy. Pavel Provinský. 19. listopadu 2013

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Úvod do problematiky měření

4EK211 Základy ekonometrie

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Stručný úvod do testování statistických hypotéz

Jana Vránová, 3. lékařská fakulta UK

Cvičení 12: Binární logistická regrese

7. Rozdělení pravděpodobnosti ve statistice

Přednáška X. Testování hypotéz o kvantitativních proměnných

7.1. Podstata testu statistické hypotézy

ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Normální (Gaussovo) rozdělení

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Cvičení ze statistiky - 8. Filip Děchtěrenko

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Statistické metody uţívané při ověřování platnosti hypotéz

Testování statistických hypotéz

MAL. one of the best corroborated law in linguistics

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

2 ) 4, Φ 1 (1 0,005)

PRAVDĚPODOBNOST A STATISTIKA

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz o parametrech regresního modelu

= = 2368

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

15. T e s t o v á n í h y p o t é z

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

. Filozofické problémy přírodních věd Teorie a zákon. Lukáš Richterek. lukas.richterek@upol.cz. Podklad k předmětu KEF/FPPV

Pravděpodobnost a aplikovaná statistika

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Metodologie Kinantropologie

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Výzkumný problém. Přednášky ze Základů pedagogické metodologie Kateřina Vlčková, PdF MU Brno

ADDS cviceni. Pavlina Kuranova

Statistická analýza jednorozměrných dat

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Bakalářský seminář - 3

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Inovace bakalářského studijního oboru Aplikovaná chemie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami reg. č.: CZ.1.07/2.2.00/28.0076

Úvod do kvantitativní lingvistiky Radek Čech

Kvantitativní lingvistika co Vás napadne, když uslyšíte pojem kvantitativní lingvistika?

Kvantitativní lingvistika cíle lingvistiky (obecně) metody lingvistiky (obecně) předmět lingvistiky (obecně)

Kvantitativní lingvistika cílem nikoliv popis (klasifikace) jednotek jazykového systému, ale vytvoření modelu, jehož vlastnosti jsou založeny na empiricky testovatelných hypotézách lingvistika jako experimentální věda jazyk jako stochastický systém

Kvantitativní lingvistika (teorie) verbální formulace hypotézy + operacionalizace matematická formalizace experiment matematické vyhodnocení experimentu lingvistická explanace

Kvantitativní lingvistika Co je teorie? Jak poznat, která teorie je lepší než jiná? Plyne něco z teorie? Lingvistické teorie?

Kvantitativní lingvistika Co je hypotéza? Formální vlastností hypotézy? Lingvistické hypotézy

Hypotéza která tvrzení jsou/nejsou testovatelnými hypotézami? hodně mužů má pleš pokud se v knize vyskytují biblický příběh, je to apokryf jestli se zavedou řidičáky na zkoušku, může se snížit nehodovost mladých řidičů a řidiček ženy jsou citlivé muži mají častěji pleš než ženy jestliže se je sloveso dokonavé, častěji se na něj váže přímý akuzativní předmět než na sloveso nedokonavé čím je slovo frekventovanější, tím je větší jeho polysémie jestli se zavedou řidičáky na zkoušku, sníží se nehodovost mladých řidičů a řidiček nářečí často ovlivňují podobu mluveného jazyka obyvatel dané nářeční oblasti

Kvantitativní lingvistika Operacionalizace vs. klasifikace Způsoby klasifikace jevů V(A) = V(B), nebo V(A) V(B). V(A) > V(B), nebo V(A) = V(B), nebo V(A) < V(B) V(A) V(B) = d

Operacionalizace je třeba jasně a jednoznačně definovat proměnné, mezi kterými se předpokládá závislost H: čím je slovo frekventovanější, tím je polysémnější v čem může být problém?

Operacionalizace je třeba jasně a jednoznačně definovat proměnné, mezi kterými se předpokládá závislost H: čím je slovo frekventovanější, tím je polysémnější frekvence: je třeba jasně uvést co se myslí slovem jak se budou počítat frekvence polysémie: je třeba uvést jak se bude polysémie kvantifikovat

Operacionalizace H: ženy mají větší pasivní slovní zásobu než muži jak definovat pasivní slovní zásobu?

Operacionalizace špatná operacionalizace znehodnocuje celou analýzu H: subjekt je v češtině v průměru delší než objekt Muž v triku veze naše dopisy pokuste se formulovat některé problémy s určováním délky

Operacionalizace špatná operacionalizace znehodnocuje celou analýzu H: subjekt je v češtině v průměru delší než objekt Muž v triku veze naše dopisy některé problémy s určováním délky: rozvitý vs. nerozvitý subjekt/objekt? počet slov? počet slabik? počet morfémů? je neslabičná předložka samostatným slovem? způsob měření ovlivňuje podobu výsledku!!!

Kvantitativní lingvistika Matematická formalizace vyjádření sledovaných vlastností čísly např. frekvenční distribuce

Kvantitativní lingvistika Co je experiment? vlastnosti chyby replikace

Kvantitativní lingvistika Matematické vyhodnocení experimentu náhoda vs. mechanismus statistický test

Statistické testy významnosti testuje se pravděpodobnost toho, zda je pozorovaná závislost způsobena náhodou, či ne hod mincí (100x) pokud padne 50x panna a 50x orel, nepředpokládá se, že by někdo podváděl pokud padne 52x panna a 48x orel, nepředpokládá se, že by někdo podváděl padne-li však 98x panna, dá se předpokládat, že někdo podvádí a co když padne panna 59x nebo 60x nebo 61x nebo 62x?

Statistické testy významnosti dá se spočítat (srov. např. Greis 2010, s. 33nn), že pokud padne panna 61x, tak je větší než 95procentní pravděpodobnost, že jeden z hráčů podvádí jinými slovy: pravděpodobnost, že budeme neoprávněně tvrdit, že jeden z hráčů nepodvádí, je menší než 5procentní

Statistické testy významnosti porovnávají se dvě hypotézy nulová hypotéza: tvrzení, které obvykle deklaruje žádný rozdíl, tj. nalezený rozdíl je dán variablitou dat, náhodou (např. mezi formou jazyka a četností užívaní bychom/bysme není rozdíl) alternativní hypotéza: situace, kdy nulová hypotéza neplatí, tj. mezi proměnnými se předpokládá závislost

Statistické testy významnosti hladina významnosti pravděpodobnost, že se zamítne nulová hypotéza, ačkoliv ona platí obvykle 5 % (0,05) nebo 1 % (0,01) často používané testy chí-kvadrát Fisherův exaktní test

Chí-kvadrát test dobré shody O i = pozorovaná frekvence E i = očekávaná, předpokládaná (teoretická) frekvence, dle nulové hypotézy

Chí-kvadrát test dobré shody příklad: předpokládáme, že v románech se bude častěji používat nespisovná varianta slova bychom než v publicistických textech proměnnými jsou: a) typ textu; b) varianta slova H 0 : mezi typem textu a používáním nespisovné varianty slova bychom není žádný vztah H 1 : mezi typem textu a používáním nespisovné varianty slova bychom je vztah, tj. tato forma se častěji vyskytuje v próze

Chí-kvadrát test dobré shody SYN2005nov (romány) bychom 5260 6679 bysme 714 39 % bysme 13,6 0,6 p = 0,00000000000000022 SYN2005pub (publicistika) SYN2005nov (romány) bychom 5260 1660 bysme 714 136 % bysme 13,6 8,2 SYN2005col (povídky)

Chí-kvadrát test dobré shody SYN2005nov (romány) bychom 5260 6679 bysme 714 39 % bysme 13,6 0,6 p = 0,00000000000000022 SYN2005pub (publicistika) SYN2005nov (romány) bychom 5260 1660 bysme 714 136 % bysme 13,6 8,2 p = 0,0000001851 SYN2005col (povídky)

Chí-kvadrát test dobré shody omezení použití celková četnost musí být n > 40 pokud 20 < n < 40, potom nesmí být žádná očekávaná četnost menší než 5 pro malé četnosti lze použít Fisherův exaktní test lze použít: http://www.langsrud.com/fisher.htm

Statistické testy významnosti někteří lingvisté (vesměs korpusoví) jsou přesvědčeni, že čím více dat máme k dispozici, tím lépe Sinclair: The more, the better! z hlediska použitelnosti statistických testů to však neplatí, srov. Rietvield T. et al.: Pitfalls in Corpus Research. Computers and the Humanities 38: 343 362, 2004.

Statistické testy významnosti konstrukce A konstrukce B romány novely Σ % novely 500000 501800 1001800 50,09% 501500 500000 1001500 49,93% Σ 1001500 1001800 2003300 chi^2 = 5.43, p=0,020

Kvantitativní lingvistika popis vs. interpretace vs. explanace

G. K. Zipf princip nejmenšího úsilí příklad frekvenční distribuce a jejího modelování ÚKOL: vytvořte f distribuci daného textu, znázorněte graficky