DeriNet: Lexikální databáze českých derivátů

Podobné dokumenty
Lexikální síť DeriNet: elektronický zdroj pro výzkum derivace v češtině 1

Pseudodeminutiva v češtině

Moravské gymnázium Brno s.r.o.

Morfologie I - seminář CJA009 (C41/C13) seminář pro I. cyklus studia. středa/pátek

Morfologie I - seminář CJA009 (C32) seminář pro I. cyklus studia. úterý

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

Univerzita Karlova v Praze, Nakladatelství Karolinum, 2015 Robert Adam, 2015

KONCE DERIVAČNÍCH ŘAD V SLOVOTVORNÉM SYSTÉMU ČEŠTINY

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Téma: Způsoby tvoření slov v češtině odvozování, skládání, zkracování Kód: VY_32_INOVACE_1_SPSOA_CJL_16_BAL

Šablona: I/2 Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační gramotnosti

Deadjektivní deriváty v češtině jako deriváty syntaktické vs. lexikální

Popis morfologických značek poziční systém

1. MORFOLOGIE. 1. Morfologie

DUM: VY_32_INOVACE_112

Paradigmaticky tvořená substantiva ve slovotvorných paradigmatech 1

Český jazyk - Jazyková výchova

1.2.1 Tvorba víceslovných pojmenování Tvorba jednoslovných pojmenování Derivační tvorba pojmenování

VY_32_INOVACE_6/19_JAZYK A JAZYKOVÁ KOMUNIKACE. Předmět: Český jazyk Ročník: 7. Poznámka: Procvičování - slovotvorba Vypracoval: Mgr.

Gramatické rozbory češtiny Výklad a cvičení s řešeními. Robert Adam a kol. Recenzovaly: PhDr. Jasňa Pacovská, CSc. PhDr. Jana Bílková, Ph.D.

Příruční mluvnice češtiny. 2. vyd., Praha: Lidové noviny, s. ISBN

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1

Tvoření slov Zhotoveno ve školním roce: 2011/2012 TVOŘENÍ SLOV. V češtině se nová slova tvoří

2 Tvarotvorná analýza 3 Základní slovotvorný vztah fundace fundace

LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Úvodní jazykový seminář: výklad a cvičení (s terminologickým slovníkem)

Tvoření slov poznámky ke korpusově podložené studii 1

Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky. Praha, 15. prosince 2014

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Žák se seznámí se základními pojmy morfologie tvarosloví, ohebnost, význam slov.

2 Lexikální jednotka. 2.1 Obecné kategorie

Nástroj pro slovotvornou analýzu jazykového korpusu 1

SSOS_CJL_1.20 Pojmy z lexikologie

Moravské gymnázium Brno s.r.o. Hana Blaudeová. Ročník 2. Datum tvorby Anotace. -prezentace určena pro učitele

Jazyk a jazyková komunikace 2. ročník a sexta

VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Filozofická fakulta Ostravské univerzity v Ostravě. Informace o přijímacích zkouškách podle studijních programů

Aplikace: poznávání češtiny jako druhého/cizího jazyka, procvičování učiva SŠ, využití při nácviku didaktického testu

Psaní ú/ů ve slovech domácích i cizích

K SLOVOTVORNÉ UTVÁŘENOSTI VYBRANÝCH NEOLOGISMŮ

Anotace: BIOLOGIE HUB - Vytvoření výukového plakátu na symbiózu některých hřibovitých hub s kořeny vyšších rostlin

Retrográdní slovníky = inverzní

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

SLOVOTVORNÁ PRODUKTIVITA POJEM SYNCHRONNÍ, NEBO DIACHRONNÍ?

ANOTACE nově vytvořených/inovovaných materiálů

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Příspěvky k české morfologii

Několik poznámek k hybridnímu skládání synsémantických a nástavbových druhů 1

Ústav anglického jazyka a didaktiky FF UK

Práce s lexikálním materiálem a možnosti exemplifikace v lexikální databázi LEXIKON 21 1

Přídavná jména Střední průmyslová škola a Obchodní akademie Uherský Brod Český jazyk a literatura

5. Abstraktní podstatná jména se často tvoří odvozováním od přídavných jmen různými příponami. Utvořte:

Zvýšení počtu služebních a pracovních míst rozpočtové kapitoly Ministerstva vnitra

Stonožka jak se z výsledků dozvědět co nejvíce

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

UNIVERZITA KARLOVA V PRAZE

GIS Geografické informační systémy

5.1 Český jazyk a literatura Vyšší stupeň osmiletého gymnázia a gymnázium čtyřleté

Pořadové číslo projektu:

Učební osnovy vyučovacího předmětu český jazyk a literatura se doplňují: 2. stupeň Ročník: šestý. Tematické okruhy průřezového tématu

RECENZE A REFERÁTY 247

Morfologie odborných textů

Tam, kde anglické příklady neodpovídají českému jazykovému systému, se český překlad neuvádí.

Český jazyk ve 4. ročníku

Použití této techniky se v tezaurech nedoporučuje.

SLOVOTVORNĚ MOTIVOVANÉ NEOLOGISMY - PRODUKTIVITA A PRAVIDELNOST JEJICH TVOŘENÍ. Slovotvorná motivace, slovotvorné pravidlo

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Ontologie. Otakar Trunda

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Předmět: Český jazyk a literatura

Romanoslavica XLV JE ČEŠTINA IDEÁLNÍ REPREZENTAMT FLEXIVNÍHO TYPU JAZYKA?

Český jazyk a literatura - jazyková výchova

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Roviny analýzy jazyka. Fonetika

Univerzita Palackého v Olomouci. Filozofická fakulta. Katedra bohemistiky SLOVOTVORBA V UČEBNICÍCH ČESKÉHO JAZYKA PRO STŘEDNÍ ŠKOLY

Morfologie. Morfém. Morf. Typy morfů (podle významu, který vyjadřují) Morfologická homonymie. Morfologická synonymie

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

ŠVP Gymnázium Ostrava-Zábřeh Latina

GIS Geografické informační systémy

MASARYKOVA UNIVERSITA FAKULTA INFORMATIKY. Morfologický analyzátor

Kristýna Bémová. 13. prosince 2007

Ke slovotvorbě proprií z hlediska centra a periferie

DUM: VY_32_INOVACE_116

Metodický koncept k efektivní podpoře klíčových odborných kompetencí s využitím cizího jazyka ATCZ62 - CLIL jako výuková strategie na vysoké škole

Olympiáda v českém jazyce, 39. ročník, 2012/2013 krajské kolo

Tematický plán uiva z eského jazyka pro 6. roník na školní rok Mluvnice

DOKULIL, M.: Slovesa odvozená ze jmen přídavných označujících barvy. Naše řeč 55, 1972, s DOKULIL, M.: K jednomu typu slovesných

3 Morfologická analýza. 2 Reprezentace morfologického. lemma. Pomocí slovotvorného vzoru se generuje seznam

Modifikace: atributivní použití adjektiv, druhy adjektiv,

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Český jazyk Ročník: 6. Průřezová témata Mezipředmětové vztahy.

Předmět: Český jazyk. čtení plynulé, tiché, hlasité, s porozuměním. nadpis, osnova vypravování, popis s dodržením časové posloupnosti

Lexikografická databáze beduínských dialektů Informace pro uživatele

MORFOLOGICKÝ ANALYZÁTOR POMOCÍ

(1) Kánonická flexe FORMÁLNÍ POŽADAVKY

Úvod do kvantitativní lingvistiky. Radek Čech

Transkript:

DeriNet: Lexikální databáze českých derivátů Magda Ševčíková, Zdeněk Žabokrtský {sevcikova,zabokrtsky}@ufal.mff.cuni.cz Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky Seminář formální lingvistiky 15. prosince 2014

DeriNet Omezení na derivaci dokulilovské pojetí derivace Automatická identifikace základových slov s manuální (lingvistickou) kontrolou Technické prostředky pro vývoj sítě DeriNet Pracovní postup Kvantitativní vlastnosti verze 0.9 {sevcikova,zabokrtsky}@ufal.mff.cuni.cz 2

Milan Straka: DeriNet Viewer http://ufallab.ms.mff.cuni.cz/~straka/derinet-viewer/

DeriNet word-formation network for Czech (LREC 2014), database of Czech derived words (SLE 2014), lexical network of Czech derived words; databáze českých derivátů, lexikální síť českých derivátů databáze českých lexémů lexémy extrahovány z korpusových dat mezi dvěma lexémy (uzly) vytvořen vztah (hrana), pokud se jedná o slovo základové a slovo od něj odvozené stromy odpovídají slovním čeledím / slovotvorným hnízdům {sevcikova,zabokrtsky}@ufal.mff.cuni.cz 4

DeriNet: historie, verze vznik v souvislosti s projektem GAČR P406/12/P175 Vybrané derivační vztahy pro automatické zpracování češtiny postdoktorský projekt, PI Magda Ševčíková, 2012 2014 technická realizace: Zdeněk Žabokrtský DeriNet vyvíjen od podzimu 2012 DeriNet 0.5 (květen 2014) DeriNet 0.9 (prosinec 2014) DeriNet 1.0 (leden 2015) DeriNet 0.9 celkem 305 781 uzlů, 117 327 hran z toho 98 683 adjektivních uzlů, 26 019 adjektivních derivátů {sevcikova,zabokrtsky}@ufal.mff.cuni.cz 5

Pouze derivace derivace v češtině nejčastějším a nejvíce produktivním slovotvorným procesem několik set slovotvorných formantů (převážně přípony) např. názvy vlastností tvořeny až 14 příponami (-ost, -ství, -oba, -ota, -da, -ka, -ina, -í; -ita, -ismus, -ika, -ura, -ance/-ence, -ie) teoretický popis založený na Dokulilově onomasiologickém přístupu k slovotvorbě M. Dokulil, Tvoření slov v češtině 1: Teorie odvozování slov, Academia 1962 Daneš et al. 1967, Šmilauer 1971, Hauser 1986, Dokulil et al. 1986, Grepl et al. 2000, Cvrček et al. 2010, Čermák 2012, Štícha et al. 2013 zachycení derivačních vztahů v DeriNetu v souladu s dokulilovskou teorií: cílem data podávající teoreticky správný obraz o české derivaci se základovým slovem nejsou spojovány lexémy, které jsou produktem kombinovaných slovotvorných procesů (kompozice s derivací), ani kompozita mořeplavec, rychlovarný, velkovýroba hrany tvořeny poloautomaticky {sevcikova,zabokrtsky}@ufal.mff.cuni.cz 6

Derivace v češtině velké množství formantů komplikovaný vztah formy a významu mnoho formantů má několik významů -ka: učitel > učitelka, skříň > skříňka mnoho významů vyjádřeno hned několika formanty ženský protějšek : učitel > učitelka, soudce > soudkyně komplikovaná kombinatorika mnoho formantů se spojuje se základovými slovy z několika slovních druhů -ař: houba > houbař, tesat > tesař -ina: ryba > rybina, pevný > pevnina, třetí > třetina, vidět > vidina derivace doprovázena hláskovými alternacemi, vkládáním/vypouštěním hlásek a/nebo změnou velkého počátečního písmena na malé stuha > stužka, list > lístek, žít > žití, léčba > léčebna, Vimperk > vimperský možnost zakázat pouze na prvním písmeni (hena > ženský) {sevcikova,zabokrtsky}@ufal.mff.cuni.cz 7

Slovotvorná fundace/motivace fundace/motivace jako formální/významové zakládání se jednoho slova na druhém Dokulil (1962:11 14) Jedna forma se zakládá na druhé tehdy, (1) jestliže kmen této druhé formy je plně zahrnut v rozšířeném kmeni první formy to je synchronní průmět genetického procesu odvozování (předponami nebo příponami); (2) jestliže kmen této formy obměňuje kmen druhé formy hláskově, a to ve smyslu směru takových zvukových alternací (např. c, č se může zakládat na k, č, kromě toho rovněž na c, nikoli však naopak) to je synchronní průmět genetického procesu fonetického tvoření slov. Jsou-li kmeny (základy) jedné i druhé formy totožné, nelze zpravidla z formy samé rozhodnout, je-li jedna forma fundována druhou, popřípadě která forma je fundovaná (odvozená v nejširším smyslu) a která fundující (základová). Směr fundace (odvození) je pak dán pouze v rovině významu. Jeden význam se zakládá na druhém, když je-li dán tento druhý význam, je tím určen i význam první, jinými slovy, je-li první význam odvoditelný. Encyklopedický slovník češtiny (2002:144) slovo, které je obvykle složitější významově i formálně, je tak fundováno slovem jednodušším {sevcikova,zabokrtsky}@ufal.mff.cuni.cz 8

Automatická identifikace základových slov s manuální (lingvistickou) kontrolou ve slovní zásobě spousta pravidelností automaticky rozpoznatelné pouze malá část z nich slovotvorně (fundačně/motivačně) relevantních derivační pravidla vygenerovaná na základě porovnání dvojic lexémů v databázi shoda v dostatečně dlouhé sekvenci písmen u dostatečně velkého množství dvojic povoleny hláskové alternace př.: N- N-ová Novák > Nováková A-ý N-ost hladký > hladkost V- pře-v- dělat > předělat {sevcikova,zabokrtsky}@ufal.mff.cuni.cz 9

Základová slova substantiv na -ství/-tví substantiva s příponou -ství/-tví popisována jako deriváty adjektiv (Mluvnice češtiny 1 1986, Příruční mluvnice češtiny 2000) jako deriváty substantiv (Štícha et al. 2013) DeriNet 0.5 1262 substantiv s příponou -ství/-tví jen pro 152 (12 %) z nich automaticky identifikován jediný kandidát na fundující slovo adjektivum na -ský/-ký v databázi pro 1139 z 1262 derivátů (90,3 %; pravidlo A-ký > N-tví) substantivum (nejčastěji masc.anim.) označující osobu 721 (57,1 %) N- > N-ství: př. amatérství, barbarství 245 (19,4 %) N-k > N-ctví : př. dobráctví, estébáctví 187 (14,8 %) N-ík > N-ictví: př. básnictví, dobrovolnictví 87 (6,9 %) N- N-tví: př. sobectví, bezdomovectví popř. další: 104 (8,2 %) N- N-nictví: čaroděj > čarodějnictví (vs. N-ík > N-ictví: čarodějník > čarodějnictví, N-e > N-tví: čarodějnice > čarodějnictví) {sevcikova,zabokrtsky}@ufal.mff.cuni.cz 10

Základová slova substantiv na -ství/-tví (ii) celkem 40 pravidel vedoucích k substantivu na -ství/-tví adjektivum na -ský/-ký a název osoby 3. a další fundující slovo pro jednotlivé deriváty různé deminutivum femininum sloveso... sobecký ředitelský sobectví sobec ředitel sobeček ředitelství ředitelka ředitelovat státnický ředitelný státník státnictví státní služebnický statný služebník stát služebný služebnictví služební služebníček služebna služebka {sevcikova,zabokrtsky}@ufal.mff.cuni.cz 11

Základová slova lexémů s cizím formantem, s prefixy ad. formanty cizího původu: impresionismus impresionista impresionistický fotbalista fotbalistický negace, další prefixace: mačkavý mačkavost nemačkavý nemačkavost biologie biologický biologicky mikrobiologie mikrobiologický mikrobiologicky {sevcikova,zabokrtsky}@ufal.mff.cuni.cz 12