Frekvence Korelační analýza Jazykové zákony

Podobné dokumenty
MAL. one of the best corroborated law in linguistics

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Úvod do kvantitativní lingvistiky. Radek Čech

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Mnohorozměrná statistická data

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Mnohorozměrná statistická data

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Aplikovaná statistika v R - cvičení 2

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Zápočtová práce STATISTIKA I

Korelace. Komentované řešení pomocí MS Excel

Úvodem Dříve les než stromy 3 Operace s maticemi

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Regresní a korelační analýza

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Regresní a korelační analýza

23. Matematická statistika

Měření závislosti statistických dat

Korelační a regresní analýza

Statistická analýza jednorozměrných dat

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

KGG/STG Statistika pro geografy

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTICKÉ PROGRAMY

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Téma 22. Ondřej Nývlt

You created this PDF from an application that is not licensed to print to novapdf printer (

Pravděpodobnost a aplikovaná statistika

Charakterizace rozdělení

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Analýza dat na PC I.

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

6. Lineární regresní modely

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Regresní a korelační analýza

Regresní a korelační analýza

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

KGG/STG Statistika pro geografy

Pravděpodobnost a statistika

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Základy popisné statistiky

PSY117. Přednáška VZTAHY MEZI PROMĚNNÝMI KORELAČNÍ KOEFICIENT

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

MODERNÍ MARKETINGOVÝ VÝZKUM

TECHNICKÁ UNIVERZITA V LIBERCI

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Statistika pro geografy

Regresní a korelační analýza

Pravděpodobnost a matematická statistika

Základy pravděpodobnosti a statistiky. Popisná statistika

INDUKTIVNÍ STATISTIKA

Technická univerzita v Liberci

Vícerozměrná rozdělení

Popisná statistika. Komentované řešení pomocí MS Excel

Testování hypotéz o parametrech regresního modelu

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

PRAVDĚPODOBNOST A STATISTIKA

Popisná statistika. Statistika pro sociology

Neparametrické metody

HYPOTÉZY. Kvantitativní výzkum není nic jiného než testování hypotéz. (Disman 2002, s. 76) DEDUKCE (kvantitativní přístup)

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Třídění statistických dat

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Statistické metody uţívané při ověřování platnosti hypotéz

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Transkript:

Frekvence Korelační analýza Jazykové zákony EVJA miroslavkubat.webnode.cz

Tematické okruhy ke zkoušce Empirický výzkum v jazykovědě. Kvantitativní a kvalitativní metody. Vzorek a populace. Testování vědeckých hypotéz. Statistické testy. Distribuce a rozdělení. Vizualizace dat. Jazykové jednotky. Frekvenční charakteristiky. Reliabilita a validita výzkumu. Jazykové teorie a zákony. Lingvistický software I. Lingvistický software II.

Zkouška Základní literatura Přednášky (miroslavkubat.webnode.cz) Znalost českých pracovišť a aktuálního výzkumu (QL.webnode) Orientace v softwaru a zdrojích dat (QL.webnode)

Zkouška Písemný test 20 otázek Min. 14 správných odpovědí

Literatura ke zkoušce ČECH, R. - POPESCU, I. I. - ALTMANN, G.: Metody kvantitativní analýzy (nejen) básnických textů. Olomouc: UP, 2014. CHROMÝ, J.: Práce s empirickými daty. Praha: Karolinum, 2014. TĚŠITELOVÁ, M.: Kvantitativní lingvistika. Praha: SPN, 1987. TĚŠITELOVÁ, M.: Otázky lexikální statistiky. Praha: Academia, 1974. VOLÍN, J.: Statistické metody ve fonetickém výzkumu. Praha: Epocha, 2007. WIMMER, G. - ALTMANN, G. - HŘEBÍČEK, L. - ONDREJOVIČ, S. - WIMMEROVÁ, S.: Úvod do analýzy textov. Bratislava: Veda, 2003.

Frekvence (četnost) Absolutní Relativní

Frekvence (četnost) Rank Absolutní frekvence Relativní frekvence 1 8 0.4 2 6 0.3 3 4 0.2 4 2 0.1

Rank (pořadí) rank = pořadí dle frekvence, přičemž každá hodnota odpovídá pouze jedné frekvenci, počítá se tedy jen hodnota frekvence, nikoli kvalita jednotky, hodnota ranku je tedy vždy stejná nebo nižší než hodnota pořadí pořadí = hodnota, která určuje pořadí dle absolutní frekvence, přičemž se nepřihlíží k tomu, má-li více jednotek stejnou frekvenci

Rank (pořadí) Pořadí Absolutní frekvence Rank Absolutní frekvence Rank Absolutní frekvence 1 8 1 8 1 8 2 4 2 4 2.5 4 3 4 2 4 2.5 4 4 2 3 2 4 2

Frekvenční struktura textu (Rank-Frequency Distribution) V QL nejčastěji pracujeme s frekvencemi a rankem (pořadím) různých jednotek, typicky slov (slovní tvary, lemmata).

f Rank-frequency Distribution 18 16 14 12 10 8 6 4 2 0 0 20 40 60 80 100 120 140 r

Type-Token Relation

Type-Token Ratio TTR = V N V počet typů N počet tokenů Interpretace? Slovní bohatství Informační tok Morfologická komplexita

TTR 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1000 2000 3000 4000 5000 6000 7000 délka textu (N)

Vocabulary Richness MATTR A text is divided into the overlapped subtexts of the same length. TTR is computed for every subtext. MATTR is defined as a mean of particular values. MATTR L = σ i=1 N L V i L(N L + 1) L arbitrarily chosen length of a window, L < N N text length in tokens V i number of types in an individual window

Vocabulary Richness MATTR a, b, c, a, a, d, f a, b, c b, c, a c, a, a a, a, d a, d, f MATTR 3 = σ i=1 N L V i L(N L + 1) = 3 + 3 + 2 + 2 + 3 3(7 3 + 1) = 0.87 L=3 N=7 V i number of types in an individual window

MATTR 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0 1000 2000 3000 4000 5000 6000 délka textu

Intervaly hodnot TTR = V N = 100 100 = 1 TTR = V N = 1 100 =0.01 R = V N = 100 100 = 10 R = V N = 1 100 = 0.1 V počet typů = 1, 100 N počet tokenů = 100

Vizualizace dat Tabulky Grafy Bodové Sloupcové Spojnicové Dendrogramy Sítě

Grafy Vždy popisky os Při porovnávání více grafů je důležitá stejná škála

TTR Bodový graf 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1000 2000 3000 4000 5000 6000 7000 délka textu (N)

MATTR Sloupcový graf 0.8 0.79 0.78 0.77 0.76 0.792 0.787 0.787 0.782 0.782 0.773 0.764 0.75 0.74 0.746 cestopis sloupek povídka román dopis báseň studie pohádka

Histogram Histogram je grafické znázornění distribuce dat pomocí sloupcového grafu. Výška sloupců vyjadřuje četnost sledované veličiny v daném intervalu.

MWTTR Spojnicový graf 95 90 85 80 75 70 65 0 500 1000 1500 2000 délka textu (N)

Dendrogram

Síť

Jazykové jednotky Tradiční ( přirozené ) Netradiční ( umělé ) Všechny jednotky jsou jen konstrukty, které nám umožňují nějakým způsobem uvažovat o jazyce a zkoumat jej.

Jazykové jednotky N-gramy Délkové motivy Větné agregáty (hreby)

N-gramy N-gram = sled po sobě jdoucích jednotek o stanovené délce n V lingvistice nejčastěji bigramy a trigramy slov a grafémů Klasifikace textů Toto je text. => To ot to o_ _j je e_ _t te ex xt t.

Délkové motivy (L-motivy) Sekvence neklesajících (stejných nebo větších) délek zvolených jednotek. Délka je měřena v arbitrárně zvolených jednotkách. Např. délka slov počítaná ve slabikách. Do lingvistiky zavedl Reinhard Köhler. Různé modifikace, např. nestoupající délky (opak původních motivů).

Délkové motivy (L-motivy) Motivy délky jsou lingvistické jednotky, které se chovají stejně jako jiné jednotky.

Hreb (agregát, sémantický konstrukt) Agregát byl Hřebíčkem definován jako nakupení vět, skupina vět daného textu s určitou lexikální jednotkou. Hreb je jazyková jednotka odkazující ke stejné entitě

Data Velké korpusy (ČNK, BNC, ) Městská knihovna v Praze (https://www.mlp.cz) Česká elektronická knihovna - Poezie 19. a počátku 20. století (1700 básnických knih, http://www.ceska-poezie.cz) Repozitář LINDAT (https://lindat.mff.cuni.cz/repository) Projekt Guntenberg (http://www.gutenberg.org) Brown Corpus (americká AJ 60. let, 1 mil. slov) Chinese Text Project (http://ctext.org)

Software Textové editory (PSPad, Notepad++, Poznámkový blok) Textové procesory (Word, Writer, WordPad) Správa e-knih (Calibre) Korpusové manažery (Bonito, AntConc) Text processing (tokenizace, lemmatizace, morfologické značky, např. NLTK, Majka, FSMTokenizer)

Software Textové editory (PSPad, Notepad++, Poznámkový blok) Textové procesory (Word, Writer, WordPad) Správa e-knih (Calibre) Korpusové manažery (Bonito, AntConc) Text processing (tokenizace, lemmatizace, morfologické značky, např. NLTK, Majka, FSMTokenizer) Tabulkové procesory (Excel, Calc) Statistické programy (R, Statistica) Speciální programy (QUITA, WordSmith) Programy pro vizualizaci dat (Pajek, Gephi)

Korelace

Korelace neimplikuje kauzalitu Prodej zmrzliny koreluje s útoky žraloků Střelba na amerických školách koreluje s hraním PC her

Korelační analýza Znázorňuje statistickou závislost dvou kvantitativních veličin (měří vzájemný vztah dvou proměnných). Dvě proměnné jsou korelované, jestliže určité hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné.

Korelační koeficienty Vlastnosti korelačního koeficientu r: Označujeme r R -1,1 R = 0 nezávislost R = 1 přímá závislost R = -1 nepřímá závislost

Pearsonův korelační koeficient Měří statistickou závislost u lineárních dat (je parametrický) Korelační koeficient je velmi ovlivněn odlehlými hodnotami Korelační koeficient se počítá pomocí směrodatných odchylek obou proměnných a jejich kovariance (kovariance = míra vzájemné vazby mezi veličinami) R = σ (x i ҧ x)(y തy) σ(x i x) ҧ 2 σ(y i തy) 2

Koeficient determinace Vyjadřuje podíl, jakým je rozptyl závislé proměnné veličiny vysvětlen změnami nezávisle proměnné Obvykle se vyjádřen v procentech Druhá mocnina R Interval <0; 1>

Kendallův korelační koeficient τ Neparametrický test Rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí, a pravděpodobností, že ve stejném pořadí nejsou Interval <0; 1>

Kendallův korelační koeficient τ = P Q n(n 1) 2 P = počet konkordancí Q = počet diskordancí n = počet pozorování.

Jazykové zákony

Princip nejmenšího úsilí George Kingsley Zipf (1902 1950). Snaha snížit fyzickou a mentální námahu při verbalizaci a dekódování textu. Force of unification (tlak unifikace): mluvčí by v ideálním případě používal pouze jediné slovo, které by zastupovalo všechny možné významy. Force of diversification (tlak diverzifikace): Pro adresáta by byl ideální takový slovník mluvčího, který by pro každý význam obsahoval vlastní unikátní slovo.

První Zipfův zákon r f = c r rank f frekvence c konstanta Tendence po ustavení rovnováhy mezi počtem slov v jazyce (rozrůzněnost jazyka) a jejich frekvencí (jazyková ekonomie). Každý text obsahuje velmi malý počet slov frekventovaných a většinu slov málo frekventovaných.

První Zipfův zákon Slovo s největší četností se vyskytuje v textu dvakrát častěji než druhé nejčastější slovo, třikrát častěji než třetí, čtyřikrát častěji než čtvrté. Nejrozšířenější řečí na zemi (čínštinou) hovoří dvojnásobně tolik lidí než druhou nejčastější (hindštinou), třikrát tolik jako třetí nejrozšířenější (angličtinou) a čtyřikrát tolik jako čtvrtou nejrozšířenější (španělštinou). Německý týdeník s největším nákladem (Bild am Sonntag) má dvojnásobný náklad než druhý nejsilnější týdeník (Das Beste) a třikrát větší než třetí nejsilnější (Stern) a čtyřikrát větší než čtvrtý nejsilnější (Focus).

Druhý Zipfův zákon a f = c a...počet slov s frekvencí f c...konstana Čím vyšší frekvenční hladinu zkoumáme, tím méně slov na ní najdeme.

Třetí Zipfův zákon m f = c m počet významů slova o frekvenci f c konstanta Slova s nejvyšší frekvencí bývají často polysémní (mají více významů), zatímco slova z nižších frekvenčních pásem mají často jen jeden význam.

Menzerathův-Altmannův zákon 1928 Paul Menzerath Vztah mezi délkou slova a délkou slabiky Čím delší je slovo, tím kratší je průměrná délka slabiky 1980 Gabriel Altmann Zobecnil platnost pro vztah hierarchicky sousedících jednotek Čím delší je konstrukt, tím kratší jsou jeho konstituenty Věta klauze slovo slabika hláska Věta klauze slovo morfém foném

Menzerathův-Altmannův zákon Čím delší je v jazyce nějaký konstrukt, tím kratší jsou v průměru jeho konstituenty. y délka konstintuentu x délka konstruktu A, b parametry y = Ax -b

Menzerathův-Altmannův zákon Testován na mnoha jazycích Testovány různé úrovně včetně nadvětných Aplikace na DNA Funguje jen v jednotlivých přirozených textech

Význam MAL Obecný mechanismus řídící naše jazykové chování Pokud jde o obecný mechanismus, můžeme jej použít jako kritérium pro segmentaci jazykových jednotek

Interpretace MAL Princip nejmenšího úsilí Pokud použiju delší tvar, je výhodnější jej poskládat z menších částí PA-DÁM PA-DÁ-ME Pokud je tato strategie výhodná, postupně se uplatní v celém systému

Interpretace MAL The Register Hypothesis (R. Köhler) Registr = nástroj zpracování jazyka (krátkodobá paměť) Registr má omezenou kapacitu Čím delší je konstrukt, tím víc informací registr zpracovává => tím menší kapacita zbývá pro komponenty (konstituenty)

Aplikace MAL v gramatických jevech Např. negace, vid, stupňování Např. negované sloveso se bude vyskytovat v kratších klauzích, protože je o slabiku delší (jsem x nejsem)