Juxtapozice z do v Arabštině

Podobné dokumenty
Protetické v- v pražské mluvě. seminář Příprava a realizace interdisciplinárního výzkumu

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Školní vzdělávací program Základní školy a mateřské školy Sdružení

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Český jazyk - Jazyková výchova

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

Projekt IMPLEMENTACE ŠVP

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Český jazyk a literatura - jazyková výchova

Počítač, dataprojektor, interaktivní tabule, audio a video technika, plány měst, mapy, slovníky

Český jazyk v 5. ročníku

MAL. one of the best corroborated law in linguistics

Anglický jazyk je důležitý cizí jazyk. Přispívá k chápání a objevování skutečností. Poskytuje jazykový základ pro komunikaci žáků v Evropě i ve světě.

Quotations, Relevance and Time Depth:

ve strojovém překladu

On the Structure of Constituent Negation in Czech

Výstupy odpovídající úrovni A1 podle SERR. Dataprojektor, počítač, smartphone, pracovní listy, slovníky. Gymnázium Jiřího Ortena, Kutná Hora

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Gymnázium Jiřího Ortena, Kutná Hora

Anglický jazyk základní úroveň obtížnosti. obsahem lekcí bude nácvik jednotlivých dovedností a typů úloh:

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Popis morfologických značek poziční systém

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Marta Klimecká Týdenní dotace hodin: 8 hodin Ročník: třetí

Depfix: Jak dělat strojový překlad lépe než Google Translate

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Předmět: Český jazyk a literatura

Výukové programy - Mgr. Karla Pitáková, tel

Přípravné kurzy k nové maturitě německý jazyk /vyšší úroveň/ Obsahem každé lekce bude nácvik:

Explanace morfematické struktury českého stupňování na základě frekvence tvarů v Českém národním korpusu

ČESKÝ JAZYK 3. ROČNÍK

Srovnávací a historická gramatika, historicko-srovnávací metoda Franz Bopp, Jacob Grimm, Karl Brugmann

Úvod do kvantitativní lingvistiky. Radek Čech

Chytal tlouště na višni

Přípravné kurzy k nové maturitě německý jazyk /základní úroveň/

1.4.6 Negace složených výroků I

Vzdělávací obor Německý jazyk

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 5. Průřezová témata Mezipředmětové vztahy.

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Výukový materiál zpracován v rámci projektu EU peníze školám

Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY. Karel Oliva Ústav pro jazyk český Akademie věd ČR

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

PSANÍ. Anglický jazyk 5. třída Hana Stryalová

Server Internetu prostøednictvím slu eb (web, , pøenos souborù) poskytuje data. Na na í pracovní stanici Internet

Server Internetu prostøednictvím slu eb (web, , pøenos souborù) poskytuje data. Na na í pracovní stanici Internet

ANGLIČTINA ODPOLEDNÍ 111, 113 (minulý semestr 111, 113) Angličtina velmi mírně pokročilí (3. semestry) Výukové materiály Předpokládaný rozsah učiva:

Základní škola a Mateřská škola Třemešná Třemešná 341 tel: IČ:

Specifikace požadavků pro školní část přijímací zkoušky (anglický jazyk) Šestiletý obor vzdělávání

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Výstupy z RVP Učivo Ročník Průřezová témata Termín/hodiny Komunikační a slohová výchova 12 čte s porozuměním přiměřeně náročné texty potichu i nahlas

Náměty na zapojení žáka s LMP ve 4. ročníku při výuce vzorů podstatných jmen Autor: PhDr. Kamila Balharová, Mgr. Jitka Altmanová

M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Využití korpusů pro lingvistická bádání Tony McEnery & Andrew Wilson: Corpus Linguistics, Korpusy zdroje empirických dat Korpusy a výzkum řeči

Anglický jazyk vyšší úroveň. obsahem lekcí bude nácvik jednotlivých dovedností a typů úloh:

Perfektym v současné cestine

Vzdělávací oblast: Jazyk a jazyková komunikace Anglický jazyk (časová dotace 3 hodiny týdně)



N-1 Německý jazyk. (Anotace k sadě 32 materiálů) Přivlastňovací zájmena. Gymnázium Sušice Brána vzdělávání II Gymnázium Sušice Gate of learning

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

Německý jazyk. Mgr. Jitka Jakešová. Z á k l a d o v ý t e x t :

Předmět: Německý jazyk Beste Freunde 2 Ročník: 8.

Vzdělávací obor Německý jazyk

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jarmila Kuchařová Týdenní dotace hodin: 9 hodin Ročník: druhý

RECENZE A REFERÁTY 247

2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.

Jazyková výchova Párové souhlásky. Opakování párových souhlásek na konci slov. Párové souhlásky uvnitř slov. Abeceda ČaJs. Slovo

OBSAH 5 7 II 15. O. Y...,, t

ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY. Dodatek k ŠVP ZV Duha č. 3, čj. 397/2015 ze dne

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

IV. Gramatika A. Tvarosloví 1. Slovní druhy

Příklad rozpracování minimální doporučené úrovně pro úpravu. očekávaných výstupů v rámci podpůrných opatření. do učebních osnov vyučovacího předmětu

Vyučovací předmět: Francouzský jazyk. Charakteristika vyučovacího předmětu. Obsahové, časové a organizační vymezení předmětu

Specializovaný korpus BANÁT a jeho využití

Němčina druhý jazyk

Jazyková výchova Opakování. Věta, souvětí. Význam slov, hlásková podoba slova. Jednoznačná a mnohoznačná slova

Automatická post-editace výstupů frázového strojového překladu (Depfix)

ANGLICKÝ JAZYK ročník Charakteristika vyučovacího předmětu. Obsahové, časové a organizační vymezení

Název materiálu: Jazykové rozbory

Olympiáda v českém jazyce 45. ročník 2018/2019

SYNTAX LS Úvod

Informace o jazykových kurzech

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

TEMATICKÝ,časový PLÁN vyučovací předmět : český jazyk ročník : 5. x Školní rok_2014/ 2015 vyučující: Lenka Šťovíčková. Zařazená průřezová témata OSV

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět ANGLICKÝ JAZYK Období: třída

TEMATICKÝ-ČASOVÝ PLÁN Vyučovací předmět : Český jazyk Ročník :_3. Školní rok:_ Vyučující: Z. Piknová. Zařazená průřezová témata OSV OSV, MV

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny

Anglický jazyk - Prima

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

VĚTNÁ SKLADBA Mgr. Soňa Bečičková

Název projektu: Spokojená škola Číslo projektu: OPVK.CZ.1.07/1.2.33/ Metodické pokyny k pracovnímu listu č. 5 Slovní druhy

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

Český jazyk a literatura

Gramatika. Přítomný čas prostý a průběhový. Minulý čas prostý pravidelných i nepravidelných sloves. Počitatelná a nepočitatelná podstatná jména

Transkript:

Juxtapozice z do v Arabštině Kvantitativní přístup Jiří Milička Ústav srovnávací jazykovědy

Jak do začalo? První data pro výzkum byla shromážděna automaticky. Ale když se ukázalo, že téma je zajímavé, začalo být jasné, že bez manuální práce to nepůjde. 2

Úvod ذهبت من بيتي إلى بيته. Šel jsem ze svého domu do jeho domu. ذهبت إلى بيته من بيتي. Šel jsem do jeho domu ze svého domu. 3

Nusus fi an-nahwi al-arabiyi 1, 2 (Texty o arabské gramatice). (8. 14. sdoletí) Wright, W.: A Grammar of The Arabic Language (1896) Gulli,A. - Carter, M. - Badawi, M. A Modern written Arabic: Comprehensive Grammar. (2004) 4

Sgall, P. Hajičová, E. Buráňová, E.: Topic Comment in Czech. Prague 1980. 5

اآلن أنا في بيتي سأذهبت من بيتي إلى بيته. Jsem ve svém domě. Půjdu ze svého domu do jeho domu. اآلن أنا في بيته ذهبت إلى بيته من بيتي. Jsem v jeho domě. Přišel jsem do jeho domu ze svého domu. اآلن أنا في بيتي من بيتي سأذهب إلى بيته. Jsem ve svém domě. Ze svého domu půjdu do jeho domu. 6

Korpusy, které máme k dispozici: CLARA: Corpus Linguae Arabicae (synchronní, cca 40 000 000 tokenů) CLAUDIA: Corpus Linguae Arabicae Universalis Diachronis (diachronní, cca 300 000 000 tokenů) Náhodně vybrané vzorky 7

1. Najít všechny výskyty z a do v rámci jedné věty (což je v arabštině obtížnější než v evropských jazycích, ale pořád se do dá zvládnout automaticky) 2. Eliminovat ty výskyty, kde z a do nejsou syntakticky závislé na stejném slově (to už bylo třeba udělat ručně) 3. Oanotovat každý výskyt podle různých vlastností věty a jejího kontextu. 8

9

Které vlastnosti nejvíc ovlivňují distribuci opozice z do / do z? Informační dok Fonologická struktura Gramatické kategorie závislých větných členů Gramatické kategorie řídícího členu Význam závislých členů Význam řídícího členu Další 10

Z do je signifikantně častější než do z. Z do 175 Do z 26 Podle binomické distribuce můžeme tvrdit: P < 0.0001 11

Informační struktura (1) Je konstrukce z-do / do-z v tématu, nebo v rematické části? ذهبت من بيتي إلى بيته. Šel jsem ze svého domu do jeho domu. vs. من بيتي ذهبت إلى بيته. Ze svého domu jsem šel do jeho domu. (V arabštině agramatické ) 12

Informační struktura (1) V rámci našich dat (201 výskyt) se konstrukce z-do / do-z nevyskytovala před řídícím členem ani jednou. zdá se že je do v arabštině skutečně agramatické. 13

Informační struktura (2) Je závislý člen znám z předchozího kontextu? اآلن أنا في بيتي سأذهب من بيتي إلى بيته. Jsem teď ve svém domě. Půjdu ze svého domu do jeho domu. vs. اآلن أنا في بيته ذهبت إلى بيته بيتي. من Jsem teď v jeho domě. Šel jsem do jeho domu ze svého domu. 14

Informační struktura (2) Z (známý) do (známý) 26 Z (známý) do (neznámý) Z (neznámý) do (známý) Z (neznámý) do (neznámý) Do (známý) z (známý) Do (známý) z (neznámý) Do (neznámý) z (známý) Do (neznámý) z (neznámý) 21 0 127 8 11 2 5 15

Fisherův test: P < 0.0001 Informační struktura (2) Z+známý Z+neznámý do + neznámý do+známý Celkem Z - do 21 0 21 Do - z 2 11 13 Celkem 23 11 34 16

Existuje signifikantní tendence k tomu, že jestliže je argument se z známý z předchozího kontextu, a argument s do je neznámý, pak argument se z bude uveden jako první a vice versa. 17

Fonologická struktura (1) Předchází předložku souhláska? ذهبت من بيتي إلى بيته. Šel jsem ze svého domu do jeho domu. vs. ذهب ت من بيتي إلى بيته. Šla z mého domu do jeho domu. 18

Fonologická struktura (1) Fisherův test: Cons. + z Voc. + do Voc + z Cons. + do Celkem Z - do 13 36 49 Do - z 3 2 5 Celkem 16 38 54 P = 0.15 19

Fonologická struktura (2) Následuje po předložce určitý člen? ذهبت من السوق إلى بيته. Šel jsem z toho trhu do jeho domu. vs. ذهبت من بيتي إلى السوق. I šel jsem z mého domu na ten trh. 20

Fonologická struktura(2) Z + aldo + non (al-) Z + non (al-) do + al- Celkem Z - do 16 22 38 Do - z 2 6 8 Celkem 18 28 46 Fisherův test: P = 0.45 21

Gramatické kategorie závislých větných členů Jsou závislé větné členy určeny? ذهبت من السوق إلى بيت. Šel jsem z toho trhu do nějakého domu. vs. ذهبت من بيت إلى السوق. Šel jsem z nějakého domu na ten trh. 22

Gramatické kategorie závislých Fisherův test: větných členů Z + urč. do + neurč. Z + neurč. do + urč. Celkem Z - do 8 8 12 Do - z 4 2 10 Celkem 16 6 22 P = 0.65 23

Gramatické kategorie řídícího členu Je řídící člen sloveso, nebo jméno? Šel jsem z trhu do svého domu. ذهبت من السوق إلى بيتي. vs. انا ذاهب من بيتي إلى السوق. Jsem jdoucí ze svého domu na trh. 24

Gramatické kategorie řídícího členu Sloveso Jméno Celkem Z - do 110 65 175 Do - z 19 7 26 Celkem 129 72 201 Fisherův test: P = 0.38 25

Gramatické kategorie řídícího členu Zkoumáno mnoho katregorií čas, způsob, mód, osoba, rod (gender) Pád u jmen Presence/absence subjektu, negace. Nic z toho se neukázalo jako signifikantně ovlivňující distribuci zkoumaného jevu. 26

Význam závislých členů (1) من فرنسا إلى مصر Egypta. 1. Z Francie do من األحد إلى الجمعة pátku. 2. Od neděle do من 9 إلى 10 كيلو kg. 3. Od 9 do 10 من محمد إلى علي Alímu. 4. Od Muhammada k Bez signifikantních výsledků, ale (2) a (3) vypadají slibně 27

Význam závislých členů (2) Který argument je obecnější? انتقل من دمشق إلى اوربا. Přestěhoval se z Damšku do Evropy. vs. انتقلوا إلى دمشق من كل أنحاء العالم. Přestěhovali se do Damašku ze všech koutů světa. 28

Význam závislých členů (2) Z + obecnější Do + obecnější Celkem Z - do 9 26 35 Do - z 16 4 20 Celkem 25 30 22 Fisherův test: P = 0.0002 29

Význam závislých členů (3) Je argument složen z osobního zájmene? ذهبت من بيتي إليه. Šel jsem ze svého domu k němu. vs. Šla k němu z mého domu. ذه ت إليه من بيتي. 30

Význam závislých členů (3) Z + pron. do + non pron. Z + non pron. Do + pron. Celkem Z - do 9 0 9 Do - z 0 16 16 Celkem 9 16 25 Fisherův test: P < 0.0001 31

Význam závislých členů (4) Který argument je delší? Druhý argument má signifikantně více slabik i slov než první. 32

Průměrná délka Ve slovech Ve slabikách 1 2 1 2 Z - do 1.41 1.99 4.38 5.95 Do - z 0.42 2.08 1.73 6.58 Celkem 4.10 6.13 1.30 2.03 P (t-test) <0.00001 <0.00001 Použit Studentův test (není ideální) 33

Význam řídícího členu z do do z Je třeba více dat 34

Další Některé fráze mají pevný slovosled من المهد إلى اللحد Od kolébky do hrobu من الخليج إلى المحيط Od Zálivu k Oceánu (500k výskytů na Google, opačná varianta má pouze jeden výskyt) 35

Samozřejmě nemůžeme prozkoumat všechny vlastnosti (pokud vás napadne nějaká důležitá, na kterou jsem zapomněl, nenechávejte si ji pro sebe). 36

Závěr Z do je frekventovanější než do z Druhý argument tíhne k tomu být: kratší méně obecný známý z předchozího textu složený z předložky a zájmena Pevný slovosled je také v některých frázích 37

Více dat Pro další výzkum Více různých předložek Více jazyků (pro češtinu se zdá, že budou závěry podobné, včetně vzájemného poměru obou konstrukcí) Pořádná PCA (component analysis) 38

Díky! 39