Frekvence Korelační analýza Jazykové zákony EVJA miroslavkubat.webnode.cz
Tematické okruhy ke zkoušce Empirický výzkum v jazykovědě. Kvantitativní a kvalitativní metody. Vzorek a populace. Testování vědeckých hypotéz. Statistické testy. Distribuce a rozdělení. Vizualizace dat. Jazykové jednotky. Frekvenční charakteristiky. Reliabilita a validita výzkumu. Jazykové teorie a zákony. Lingvistický software I. Lingvistický software II.
Zkouška Základní literatura Přednášky (miroslavkubat.webnode.cz) Znalost českých pracovišť a aktuálního výzkumu (QL.webnode) Orientace v softwaru a zdrojích dat (QL.webnode)
Zkouška Písemný test 20 otázek Min. 14 správných odpovědí
Literatura ke zkoušce ČECH, R. - POPESCU, I. I. - ALTMANN, G.: Metody kvantitativní analýzy (nejen) básnických textů. Olomouc: UP, 2014. CHROMÝ, J.: Práce s empirickými daty. Praha: Karolinum, 2014. TĚŠITELOVÁ, M.: Kvantitativní lingvistika. Praha: SPN, 1987. TĚŠITELOVÁ, M.: Otázky lexikální statistiky. Praha: Academia, 1974. VOLÍN, J.: Statistické metody ve fonetickém výzkumu. Praha: Epocha, 2007. WIMMER, G. - ALTMANN, G. - HŘEBÍČEK, L. - ONDREJOVIČ, S. - WIMMEROVÁ, S.: Úvod do analýzy textov. Bratislava: Veda, 2003.
Frekvence (četnost) Absolutní Relativní
Frekvence (četnost) Rank Absolutní frekvence Relativní frekvence 1 8 0.4 2 6 0.3 3 4 0.2 4 2 0.1
Rank (pořadí) rank = pořadí dle frekvence, přičemž každá hodnota odpovídá pouze jedné frekvenci, počítá se tedy jen hodnota frekvence, nikoli kvalita jednotky, hodnota ranku je tedy vždy stejná nebo nižší než hodnota pořadí pořadí = hodnota, která určuje pořadí dle absolutní frekvence, přičemž se nepřihlíží k tomu, má-li více jednotek stejnou frekvenci
Rank (pořadí) Pořadí Absolutní frekvence Rank Absolutní frekvence Rank Absolutní frekvence 1 8 1 8 1 8 2 4 2 4 2.5 4 3 4 2 4 2.5 4 4 2 3 2 4 2
Frekvenční struktura textu (Rank-Frequency Distribution) V QL nejčastěji pracujeme s frekvencemi a rankem (pořadím) různých jednotek, typicky slov (slovní tvary, lemmata).
f Rank-frequency Distribution 18 16 14 12 10 8 6 4 2 0 0 20 40 60 80 100 120 140 r
Type-Token Relation
Type-Token Ratio TTR = V N V počet typů N počet tokenů Interpretace? Slovní bohatství Informační tok Morfologická komplexita
TTR 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1000 2000 3000 4000 5000 6000 7000 délka textu (N)
Vocabulary Richness MATTR A text is divided into the overlapped subtexts of the same length. TTR is computed for every subtext. MATTR is defined as a mean of particular values. MATTR L = σ i=1 N L V i L(N L + 1) L arbitrarily chosen length of a window, L < N N text length in tokens V i number of types in an individual window
Vocabulary Richness MATTR a, b, c, a, a, d, f a, b, c b, c, a c, a, a a, a, d a, d, f MATTR 3 = σ i=1 N L V i L(N L + 1) = 3 + 3 + 2 + 2 + 3 3(7 3 + 1) = 0.87 L=3 N=7 V i number of types in an individual window
MATTR 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0 1000 2000 3000 4000 5000 6000 délka textu
Intervaly hodnot TTR = V N = 100 100 = 1 TTR = V N = 1 100 =0.01 R = V N = 100 100 = 10 R = V N = 1 100 = 0.1 V počet typů = 1, 100 N počet tokenů = 100
Vizualizace dat Tabulky Grafy Bodové Sloupcové Spojnicové Dendrogramy Sítě
Grafy Vždy popisky os Při porovnávání více grafů je důležitá stejná škála
TTR Bodový graf 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1000 2000 3000 4000 5000 6000 7000 délka textu (N)
MATTR Sloupcový graf 0.8 0.79 0.78 0.77 0.76 0.792 0.787 0.787 0.782 0.782 0.773 0.764 0.75 0.74 0.746 cestopis sloupek povídka román dopis báseň studie pohádka
Histogram Histogram je grafické znázornění distribuce dat pomocí sloupcového grafu. Výška sloupců vyjadřuje četnost sledované veličiny v daném intervalu.
MWTTR Spojnicový graf 95 90 85 80 75 70 65 0 500 1000 1500 2000 délka textu (N)
Dendrogram
Síť
Jazykové jednotky Tradiční ( přirozené ) Netradiční ( umělé ) Všechny jednotky jsou jen konstrukty, které nám umožňují nějakým způsobem uvažovat o jazyce a zkoumat jej.
Jazykové jednotky N-gramy Délkové motivy Větné agregáty (hreby)
N-gramy N-gram = sled po sobě jdoucích jednotek o stanovené délce n V lingvistice nejčastěji bigramy a trigramy slov a grafémů Klasifikace textů Toto je text. => To ot to o_ _j je e_ _t te ex xt t.
Délkové motivy (L-motivy) Sekvence neklesajících (stejných nebo větších) délek zvolených jednotek. Délka je měřena v arbitrárně zvolených jednotkách. Např. délka slov počítaná ve slabikách. Do lingvistiky zavedl Reinhard Köhler. Různé modifikace, např. nestoupající délky (opak původních motivů).
Délkové motivy (L-motivy) Motivy délky jsou lingvistické jednotky, které se chovají stejně jako jiné jednotky.
Hreb (agregát, sémantický konstrukt) Agregát byl Hřebíčkem definován jako nakupení vět, skupina vět daného textu s určitou lexikální jednotkou. Hreb je jazyková jednotka odkazující ke stejné entitě
Data Velké korpusy (ČNK, BNC, ) Městská knihovna v Praze (https://www.mlp.cz) Česká elektronická knihovna - Poezie 19. a počátku 20. století (1700 básnických knih, http://www.ceska-poezie.cz) Repozitář LINDAT (https://lindat.mff.cuni.cz/repository) Projekt Guntenberg (http://www.gutenberg.org) Brown Corpus (americká AJ 60. let, 1 mil. slov) Chinese Text Project (http://ctext.org)
Software Textové editory (PSPad, Notepad++, Poznámkový blok) Textové procesory (Word, Writer, WordPad) Správa e-knih (Calibre) Korpusové manažery (Bonito, AntConc) Text processing (tokenizace, lemmatizace, morfologické značky, např. NLTK, Majka, FSMTokenizer)
Software Textové editory (PSPad, Notepad++, Poznámkový blok) Textové procesory (Word, Writer, WordPad) Správa e-knih (Calibre) Korpusové manažery (Bonito, AntConc) Text processing (tokenizace, lemmatizace, morfologické značky, např. NLTK, Majka, FSMTokenizer) Tabulkové procesory (Excel, Calc) Statistické programy (R, Statistica) Speciální programy (QUITA, WordSmith) Programy pro vizualizaci dat (Pajek, Gephi)
Korelace
Korelace neimplikuje kauzalitu Prodej zmrzliny koreluje s útoky žraloků Střelba na amerických školách koreluje s hraním PC her
Korelační analýza Znázorňuje statistickou závislost dvou kvantitativních veličin (měří vzájemný vztah dvou proměnných). Dvě proměnné jsou korelované, jestliže určité hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné.
Korelační koeficienty Vlastnosti korelačního koeficientu r: Označujeme r R -1,1 R = 0 nezávislost R = 1 přímá závislost R = -1 nepřímá závislost
Pearsonův korelační koeficient Měří statistickou závislost u lineárních dat (je parametrický) Korelační koeficient je velmi ovlivněn odlehlými hodnotami Korelační koeficient se počítá pomocí směrodatných odchylek obou proměnných a jejich kovariance (kovariance = míra vzájemné vazby mezi veličinami) R = σ (x i ҧ x)(y തy) σ(x i x) ҧ 2 σ(y i തy) 2
Koeficient determinace Vyjadřuje podíl, jakým je rozptyl závislé proměnné veličiny vysvětlen změnami nezávisle proměnné Obvykle se vyjádřen v procentech Druhá mocnina R Interval <0; 1>
Kendallův korelační koeficient τ Neparametrický test Rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí, a pravděpodobností, že ve stejném pořadí nejsou Interval <0; 1>
Kendallův korelační koeficient τ = P Q n(n 1) 2 P = počet konkordancí Q = počet diskordancí n = počet pozorování.
Jazykové zákony
Princip nejmenšího úsilí George Kingsley Zipf (1902 1950). Snaha snížit fyzickou a mentální námahu při verbalizaci a dekódování textu. Force of unification (tlak unifikace): mluvčí by v ideálním případě používal pouze jediné slovo, které by zastupovalo všechny možné významy. Force of diversification (tlak diverzifikace): Pro adresáta by byl ideální takový slovník mluvčího, který by pro každý význam obsahoval vlastní unikátní slovo.
První Zipfův zákon r f = c r rank f frekvence c konstanta Tendence po ustavení rovnováhy mezi počtem slov v jazyce (rozrůzněnost jazyka) a jejich frekvencí (jazyková ekonomie). Každý text obsahuje velmi malý počet slov frekventovaných a většinu slov málo frekventovaných.
První Zipfův zákon Slovo s největší četností se vyskytuje v textu dvakrát častěji než druhé nejčastější slovo, třikrát častěji než třetí, čtyřikrát častěji než čtvrté. Nejrozšířenější řečí na zemi (čínštinou) hovoří dvojnásobně tolik lidí než druhou nejčastější (hindštinou), třikrát tolik jako třetí nejrozšířenější (angličtinou) a čtyřikrát tolik jako čtvrtou nejrozšířenější (španělštinou). Německý týdeník s největším nákladem (Bild am Sonntag) má dvojnásobný náklad než druhý nejsilnější týdeník (Das Beste) a třikrát větší než třetí nejsilnější (Stern) a čtyřikrát větší než čtvrtý nejsilnější (Focus).
Druhý Zipfův zákon a f = c a...počet slov s frekvencí f c...konstana Čím vyšší frekvenční hladinu zkoumáme, tím méně slov na ní najdeme.
Třetí Zipfův zákon m f = c m počet významů slova o frekvenci f c konstanta Slova s nejvyšší frekvencí bývají často polysémní (mají více významů), zatímco slova z nižších frekvenčních pásem mají často jen jeden význam.
Menzerathův-Altmannův zákon 1928 Paul Menzerath Vztah mezi délkou slova a délkou slabiky Čím delší je slovo, tím kratší je průměrná délka slabiky 1980 Gabriel Altmann Zobecnil platnost pro vztah hierarchicky sousedících jednotek Čím delší je konstrukt, tím kratší jsou jeho konstituenty Věta klauze slovo slabika hláska Věta klauze slovo morfém foném
Menzerathův-Altmannův zákon Čím delší je v jazyce nějaký konstrukt, tím kratší jsou v průměru jeho konstituenty. y délka konstintuentu x délka konstruktu A, b parametry y = Ax -b
Menzerathův-Altmannův zákon Testován na mnoha jazycích Testovány různé úrovně včetně nadvětných Aplikace na DNA Funguje jen v jednotlivých přirozených textech
Význam MAL Obecný mechanismus řídící naše jazykové chování Pokud jde o obecný mechanismus, můžeme jej použít jako kritérium pro segmentaci jazykových jednotek
Interpretace MAL Princip nejmenšího úsilí Pokud použiju delší tvar, je výhodnější jej poskládat z menších částí PA-DÁM PA-DÁ-ME Pokud je tato strategie výhodná, postupně se uplatní v celém systému
Interpretace MAL The Register Hypothesis (R. Köhler) Registr = nástroj zpracování jazyka (krátkodobá paměť) Registr má omezenou kapacitu Čím delší je konstrukt, tím víc informací registr zpracovává => tím menší kapacita zbývá pro komponenty (konstituenty)
Aplikace MAL v gramatických jevech Např. negace, vid, stupňování Např. negované sloveso se bude vyskytovat v kratších klauzích, protože je o slabiku delší (jsem x nejsem)