MORFOLOGICKÉ ZNAČKOVÁNI SLOŽENÝCH SLOVESNÝCH TVARŮ V KORPUSU
|
|
- Lubomír Toman
- před 5 lety
- Počet zobrazení:
Transkript
1 SBORNÍK PRACÍ FILOZOFICKÉ FAKULTY BRNĚNSKÉ UNIVERZITY STUDIA MINORA FACULTATIS PHILOSOPHICAE UNIVERSITATIS BRUNENSIS A 47,1999 KLÁRA OSOLSOBĚ MORFOLOGICKÉ ZNAČKOVÁNI SLOŽENÝCH SLOVESNÝCH TVARŮ V KORPUSU V našem článku se budeme zabývat dvěma okruhy problémů. V první části se dotkneme otázek souvisejících s obtížemi, jež přináší formalizace pravidel postavení jednotlivých komponent českých složených slovesných tvarů. Pokusíme se formulovat pravidla pro automatickou analýzu složených slovesných tvarů v české větě. Ve druhé části ukážeme na základě analýzy materiálu subkorpusu ČNK. ČNK Český národní korpus se buduje od roku 1993 za podpory GAČR. Od roku 1996 je práce na něm koncentrována na samostatném pracovišti ÚČNK na FF UK v Praze. V současné době zahrnuje cca slovních tvarů. DESAM je anotovaným subkorpusem ČNK a zahrnuje cca 1 milion označkovaných slovních tvarů. DESAM sleduje, jak se jednotlivé slovosledné typy uplatňují v textech. Na závěr srovnáme frekvenční zastoupení jednotlivých tvarů a jejich variant a ukážeme, jaký mají tato fakta význam pro automatické morfologické značkování složených slovesných tvarů. 1. Automatická lemmatizace a desambiguace víceslovných slovesných tvarů Při automatizaci gramatického značkování korpusu je třeba řešit problém automatické lemmatizace víceslovných pojmenování. Program LEMMA používaný s úspěchem na FF MU a FI MU pro automatické značkování korpusu (vytvoření korpusu DESAM viz Osolsobě, Pala, Rychlý, 1998), vykazuje jistá omezení, která se týkají automatické lemmatizace složených slovesných tvarů. LEMMA je schopna automaticky přiřadit základní tvar a možné gramatické významy v případě, že slovu definovanému jako řetězec znaků oddělených mezerami odpovídá lemma. Na základě slovníku pevných slovních spojení typu ad hoc, pars pro toto, který je součástí automatického analyzátoru LEMMA, je možné automaticky lemmatizovat i slovní spojení, která jsou vázána pevnými slovoslednými pravidly. LEMMA ale dosud neumožňuje automatické rozpoznání a lemmatizaci složených slovesných tvarů. Tento fakt značně omezuje využitelnost korpusu označkovaného LEMMOU pro statistická šetření v oblasti
2 34 KLÁRA OSOLSOBĚ výzkumu českého slovesa, ale i pro mnohá další zkoumání. Cílem tohoto příspěvku je zamyslet se nad možnostmi řešení problémů spjatých s nespojitostí složek uvnitř složených slovesných tvarů. 1.1 Značkování sloves Automatické značkování prováděné s využitím morfologického analyzátoru LEMMA nabízí pro slovesa následující typy značek. První typ je značka pro jednoduché určité tvary (indikativ prézentu aktiva nedokonavých sloves, indikativ aktiva dokonavých sloves, imperativ). Druhý typ označuje pasivní a nebo 1-ové participium, třetí typ infinitiv. Popis jednotlivých typů srov. tab. 1 k5 ea/b p 1/2/3 ns/p tp/b/m ml/r/k al/p k5 ea/b pí ns/p tm/_ mp al/p k5 ea/b mf al/p V prvním sloupci je atribut slovní druh označený k, který nabývá hodnoty 5 (sloveso). Ve druhém sloupci je atribut negace (e) nabývající hodnoty A (-negace) a B (+negace). Třetí sloupec obsahuje atribut osoba (p) nabývající hodnoty 1,2,3 (první, druhá, třetí osoba) nebo hodnoty I (neosobní forma). Ve čtvrtém sloupci je uveden atribut číslo (n) s hodnotami S (singulár) nebo P (plurál). V pátém sloupci je atribut čas (t), který může mít hodnoty P (přítomný), B (budoucí), M (minulý), _ (žádný). Šestý sloupec obsahuje atribut modus nebo typ neurčitého tvaru (m) s hodnotami I (indikativ), R (imperativ), K (kondicionál), P (participium), F (infinitiv). V sedmém sloupci je atribut vid (a) nabývající hodnoty I (nedokonavý), P (dokonavý). Slovesa jsou tudíž značkována pouze jako jednotlivé slovní tvary bez ohledu na funkci tvarů. Z toho plyne, že např. slovo dělám bude označeno následujícím způsobem: dělám<dělat, k5eaplnstpmiai>. Úplně stejnou značku bude mít ovšem sloveso jsem <být, k5eaplnstpmiai>, a to ve velmi rozmanitých větách, v nichž plní velmi rozmanité funkce (srov. např.: Jsem zde. Dělal jsem svou práci dobře. Byl jsem zklamán, ale teď jsem nadšen...). Je na první pohled patrné, že značkování sloves založené na naznačeném principu je přinejmenším zjednodušující Složené slovesné tvary Složené slovesné tvary představují vysoké procento všech slovesných tvarů (cca 50%). Z toho vyplývá, že je nanejvýš potřebné zabývat se kvalitním korpusovým značkováním těchto tvarů. V tomto článku se budeme snažit formálně popsat pravidla pro rozpoznání složeného slovesného tvaru v české větě. Nejdříve je potřeba ujasnit si, které tvary zahrneme do našeho popisu. Slovosledná pravidla organizující postavení jednotlivých složek víceslovného slovesného tvaru se opírají o pravidla přízvuku na straně jedné a pravidla aktuálního členění na straně druhé a jsou obecná v tom smyslu, že se týkají všech typů složených slovesných tvarů. Na jedné straně stojí složené tvary času, způsobu a slovesného rodu, na straně druhé se z jejich rámce vydělují tvary s reflexívním se, a konečně složené tvary s modálními a fázovými slovesy a celou řadou dal-
3 MORFOLOGICKÉ ZNAČKOVÁNI SLOŽENÝCH SLOVESNÝCH TVARŮ V KORPUSU 35 ších sloves, která se z hlediska slovosledu chovají stejným způsobem. Vzhledem k omezením, které přináší rozsah tohoto článku, se posledně jmenovanými nebudeme úžeji zabývat. Konstatujeme pouze, že tvoří podmnožinu námi sledovaných tvarů a z hlediska slovosledných variant jsou pouze variantami nad variantami, které uvedeme. Presto bude v budoucnu třeba se jimi zabývat samostatně Inventář komponentů složených slovesných tvarů Složený slovesný tvar v tom smyslu, jak jsme o něm hovořili výše, je složen ze dvou a více prvků (slov, řetězců). Tyto prvky nemají stejnou hodnotu ani z hlediska funkce, kterou plní, ani z hlediska formy, ani z hlediska možností svého vztahu k prvkům, které nejsou součástí složeného tvaru. Podejme tedy nejprve inventář zmíněných prvků. Námi navržený seznam používá notace zavedené v korpusovém manažeru GCQP: Osobní tvary [tag= k5.*pl.*" & tag= k5.*p2.*" & tag= k5.*p3.*"] Infinitiv [tag= k5.*mf.*"] reflexivní se [lemma= sebe"] 1-ové participium [tag= k5.*ťmmp.*"] tvar pomocného slovesa být pro tvoření tvarů minulého času [lemma= být" & tag= k5.*pl.*tpmi.*" & tag= k5.*p2.*tpmi.*"] tvar pomocného slovesa být ve futuru [lemma= být" & tag= k5.*tfmi.*"] tvary by" [lemma= *by"] Termínem tvar by" označujeme osobní formy bych, bys,...bychom,. aby,., kdybyste 1-ové participium pomocného slovesa být [word= byl.*' & lemma= být"] tvar pomocného slovesa být pro tvoření tvarů prézentu pasíva [lemma= být" & tag= k5.*tpmi.*"] pasivní participium [tag= k5.*t_mp.*"] 1-ové participium slovesa bývat [word= býval.* & lemma= bývať'] Tyto prvky se dále mohou klasifikovat jako lexikální složky tvaru a gramatické složky tvaru. V rámci navržených pravidel automatické analýzy a generování složených slovesných tvarů má toto rozdělení vliv především na slovoslednou volnost či vázanost složky, a to jak ve vztahu k prvkům nepatřícím do složeného tvaru, tak vůči prvkům, které k němu patří, a na schopnosti složek odtrhnout se" a vytvořit prostor pro prvek, který nespoluutváří složený slovesný tvar (nespojité složené slovesné tvary) Pravidla pro syntézu a analýzu složených slovesných tvarů V následujících řádcích budeme stručně formulovat slovosledná pravidla složených slovesných tvarů Indikativ prézentu aktiva tvary s reflexívním se" Termín reflexívní se" používáme pro úsporu místa za se" nebo si", které jsou sou-
4 36 KLÁRA OSOLSOBÉ částí reflexívního slovesného tvaru. Termín reflexívní slovesný tvar používáme bez ohledu na funkci reflexívního zájmena se" nebo si" ve složeném tvaru. Tvar je tvořen osobním tvarem indikativu prézentu aktiva a reflexívním se". Existují dvě slovosledné varianty. V první z nich stojí se" na prvním místě složeného tvaru. Tato slovosledná varianta umožňuje vznik nespojitého tvaru, takže určitý slovesný tvar indikativu prezentu aktiva stojí buď bezprostředně po se", nebo po něm následuje nespojitě. Druhá varianta je opačná. Na prvním místě stojí určitý tvar indikativu prézentu aktiva a bezprostředně po něm bez možnosti nespojitého tvaru stojí se". Příklady: 1... že <se při těchto činnostech áktivují> oblasti mozkové kůry. 2. <Zvyšuje se> obrat, klesá podíl Analytické futurum nereflexivních tvarů Tento složený slovesný tvar vytvářejí dvě složky, jejichž postavení vykazuje větší samostatnost, než tomu bylo u předcházejících případů. Přesto se opět setkáváme se dvěma variantami. V první z nich stojí na prvním místě určitý tvar futura slovesa být". Po něm bezprostředně nebo nespojitě následuje tvar infinitivu významového slovesa. Ve druhé variantě je pořadí složek opačné, mohou, ale nemusí být nespojité. Příklady: 1. <Budeme jej nadále budovat> tak, <Prihlvtet mu bude> i trenér olympioniků. Ivan Analytické futurum reflexívních tvarů Tvar má tři složky. Existují čtyři slovosledné varianty. Kritériem je jednak postavení zvratného se". To stojí bud uvnitř tvaru bezprostředně po první složce (varianta 1 a 2), nebo na prvním místě složeného tvaru (varianta 3 a 4). Za skupinou první složka + reflexívní se" (sloveso být" ve formě futura varianta 1 nebo infinitiv významového slovesa varianta 2) následuje bezprostředně nebo nespojitě 2. složka (infinitiv významového slovesa -varianta 1 nebo sloveso být" ve formě futura varianta 2). Ve variantě 3 a 4 následují další složky složeného tvaru spojitě nebo nespojitě v pořadí sloveso být" ve tvaru futura, po němž opět spojitě nebo nespojitě následuje infinitiv významového slovesa (varianta 3) nebo v opačném pořadí (varianta 4). Příklady: 1. <Budete se na skoky dívat> alespoň v televizi <Jednat se bude> také o koordinačních orgánech Volič <se nebude bát> dát svůj hlas s touto příručkou <se vám to stávat nebude> Indikativ aktiva minulého času nereflexivních tvarů Vedle jednoduchých tvarů 3. (popř. 2.) osoby existují složené tvary 1. a 2. osoby. Jsou tvořeny příslušným osobním tvarem indikativu prézentu aktiva slovesa být" a 1-ovým participiem významového slovesa v následujících slovosledných variantách. Pokud stojí osobní tvar slovesa být" na prvním místě, pak 1-ové participium stojící na druhém místě buď následuje bezprostředně nebo nespojitě (varianta 1). Pokud stojí na prvním místě 1-ové participium významo-
5 MORFOLOGICKÉ ZNAČKOVÁNI SLOŽENÝCH SLOVESNÝCH TVARŮ V KORPUSU 37 vého slovesa, následuje určitý tvar pomocného slovesa být" vždy bezprostředně po něm (varianta 2). Příklady: 1. Před sezónou <jsem takovou situaci nečekal>.. 2. <Hrál jsem> tak, abych se Indikativ aktiva minulého času reflexívních tvarů V rámci tohoto typu existují na rozdíl od předcházejícího pouze složené tvary. Ty se liší počtem složek. Tvary 1. a 2. osoby se skládají ze tří prvků, forma 3. (popř. 2.) osoby je složena pouze ze dvou prvků. Rozlišujeme celkem čtyři slovosledné varianty, první dvě pro tvary 1. a 2. osoby, druhé dvě pro formu 3. (popř. 2.) osoby. Pokud stojí na prvním místě určitý tvar 1. nebo 2. osoby prézentu slovesa být", pak zvratné se" po tomto tvaru bezprostředně následuje. Třetí složka 1-ové participium významového slovesa může následovat spojitě nebo nespojitě (varianta 1). Pokud stojí na prvním místě 1-ové participium významového slovesa, pak po něm vždy spojitě následuje 1. nebo 2. osoba prézentu slovesa být" a za ní opět výhradně spojitě zvratné zájmeno se" (varianta 2), nebo pouze zvratné se" (varianta 4). Pokud stojí na prvním místě zvratné se", před nímž nepředchází osobní tvar pomocného slovesa, následuje po něm 1-ové participium spojitě nebo nespojitě (varianta 3). Příklady: 1. Bláhově <jsem se například domníval> <Zamiloval jsem si> hokej když <se mí partneři neustále dívali> na hodinky <dostala se> do psychické pohody Kondicionál přítomný nereflexivních tvarů aktivum Tvar kondicionálu přítomného nereflexivních tvarů sloves v činném rodě sestává ze dvou složek. V první variantě stojí na prvním místě osobní tvary by". Spojitě nebo nespojitě následuje 1-ové participium významového slovesa. Druhá varianta má na prvním místě tvar 1-ového participia významového slovesa, po němž vždy spojitě následuje osobní tvar by". Příklady: 1.že <by mu vlastnické problémy bránily> ve <bouřil bych> proti všemu Kondicionál přítomný reflexívních tvarů aktivum Tvar je složen ze tří prvků, z nichž lze složit dvě slovosledné varianty. Varianta 1 má na prvním místě tvar by", na druhém zvratné zájmeno se", které následuje vždy bezprostředně po něm, a třetí komponent 1-ové participium významového slovesa stojí na třetím místě spojitě nebo nespojitě. Varianta 2 má na první místě 1-ové participium významového slovesa, po němž bezprostředně následuje tvar by" a zvratné zájmeno se". V rámci této varianty se nespojité tvary nevyskytují. Příklady: 1....<by se ještě více aktivoval> nelegální trh 2....<jednalo by se> o zákon o pojištění...
6 38 KLÁRA OSOLSOBÉ Kondicionál minulý nereflexivních tvarů aktivum Teoreticky vzato se může tento tvar v textu vyskytnout ve třech slovosledných variantách, ačkoliv pouze první dvě jsou zastoupeny ve zkoumaném materiálu, poslední byla nalezena pouze v materiálu ČNK. První varianta má na prvním místě tvar by", spojitě nebo nespojitě následuje 1-ové participium slovesa být" a 1-ové participium významového slovesa. Druhá varianta staví na první místo 1-ové participium slovesa být", po němž vždy spojitě následuje tvar by". L-ové participium významového slovesa stojí na třetím místě spojitě nebo nespojitě. Varianta 3 má na prvním místě 1-ové participium významového slovesa, za nímž vždy spojitě následuje tvar by" a nespojitě 1-ové participium slovesa být". Příklady: 1. <Kdyby obilí bylo zůstalo> v republice <byli by ho jistě vyhnali> <Povatovali bychom byli> tehdy za úspěch Kondicionál minulý reflexívních tvarů aktivum Tento tvar má dvě základní a třetí potenciální variantu, která se nevyskytla ani v materiálu subkorpusu DESAM, ani v ČNK, a je tudíž označena!". Složený tvar sestává ze čtyř komponent. Stojí-li na prvním místě tvar by", následuje zvratné zájmeno se" vždy spojitě po něm, tvar 1-ového participia slovesa být" a 1-ového participia významového slovesa stojí na třetím a čtvrtém místě buď spojitě, nebo nespojitě (varianta 1). Stojí-li na prvním místě tvar 1-ového participia slovesa být", pak bezprostředně a vždy spojitě následují tvary by" a zvratné se". Na čtvrtém místě spojitě nebo nespojitě stojí 1-ové participium významového slovesa. Varianta 3 staví na první místo 1-ové participium významového slovesa, za nímž vždy spojitě následuje tvar by" a zvratné se". Na posledním místě následuje spojitě nebo nespojitě tvar 1-ového participia slovesa být". Příklady: 1 íe <by se byla bojová povaho Markomanů změnua> v úsměv <byla bych si moíná poslechla > koledy sama... 3.!<ptal by se byl> Indikativ prézentu pasíva Tento tvar se skládá ze dvou složek a vyskytuje se ve dvou slovosledných variantách. V první variantě stojí určitý tvar pomocného slovesa být" na prvním místě a po něm spojitě nebo nespojitě následuje pasivní participium významového slovesa. Ve druhé variantě je tomu naopak. Příklady: 1....v jakých buňkách <je tvorba těchto faktorů aktivována> <Nastaveny jsou> standardní hodnoty Indikativ pasíva analytického futura Tvar sestává ze dvou složek, slovesa být" ve futuru a pasivního participia, ve dvou slovosledných variantách. Varianta 1 má na prvním místě osobní tvar
7 MORFOLOGICKÉ ZNAČKOVÁNI SLOŽENÝCH SLOVESNÝCH TVARŮ V KORPUSU 39 slovesa být", po němž spojitě nebo nespojitě následuje pasivní participium významového slovesa. Varianta 2 má pořadí opačné. Příklady: 1....čs. tanky <budou začátkem ledna dopraveny> do Německa nikdo za zásah <postiien nebude> Indikativ pasíva minulého času Tento tvar má celkem pět slovosledných variant, a to 3 varianty pro 1. a 2. osobu a 2 varianty pro 3. (popř. 2.) osobu. První tři varianty jsou složeny ze tří komponentů. V první variantě stojí na prvním místě pomocné sloveso být" v osobním tvaru, na druhém místě spojitě nebo nespojitě následuje 1-ové participium pomocného slovesa být" a na třetím místě spojitě nebo nespojitě pasivní participium významového slovesa. Druhá varianta má na prvním místě 1- ové participium slovesa být", po něm vždy spojitě následuje osobní tvar pomocného sloesa být" a na třetím místě spojitě nebo nespojitě pasivní participium významového slovesa. Třetí varianta má na prvním místě pasivní participium významového slovesa, po něm vždy spojitě následuje osobní tvar slovesa být" a na třetím místě spojitě nebo nespojitě 1-ové participium pomocného slovesa být". Varianta 4 a 5 se skládá pouze ze dvou komponent, a to 1-ového participia slovesa být" a pasivního participia významového slovesa. L-ové participium slovesa být" je ve variantě 4 na prvním místě a na druhém místě spojitě nebo nespojitě následuje pasivní participium významového slovesa. Varianta 5 má pořadí obrácené. Příklady: 1....potom <jsem byl na poslední chvíli nominován> do Anglie <byljsem hrubě slovně napaden>... 3.!<chválen jsem byl> 4. kdy <byla tato choroba poprvé diagnostikována> <Privatizovány byly > některé železárny Kondicionál přítomný pasívum Tvar tvoří tři komponenty tvar by", 1-ové participium slovesa být" a pasivní participium ve třech slovosledných variantách. První varianta má na prvním místě tvar by", po něm spojitě nebo nespojitě následuje 1-ové participium slovesa být" a na třetím místě spojitě nebo nespojitě pasivní participium významového slovesa. Ve druhé variantě je na prvním místě 1-ové participium slovesa být", na druhém místě vždy spojitě tvar by" a na třetím místě spojitě nebo nespojitě tvar pasivního participia významového slovesa. Třetí varianta staví na první místo pasivní participium významového slovesa, po něm vždy spojitě následuje tvar by" a na třetím místě spojitě nebo nespojitě 1-ové participium. Příklady: 1....<aby bylo obchodní tajemství organizace chráněno> <byla by na mne upřeno příliš velká pozornost <zrušeno by byu» pět nynějších úřadů.
8 40 KLÁRA OSOLSOBĚ Kondicionál minulý pasívum Tvar se skládá ze čtyř složek v osmi slovosledných variantách. Varianty 1 a 2 mají na prvním místě tvar by" a na posledním místě tvar pasivního participia. Tvar 1-ového participia pomocného slovesa být" stojí na druhém místě a tvar 1- ového participia slovesa bývat" na třetím místě (varianta 1). Varianta 2 má pořadí opačné. Varianta 3 má na prvním místě 1-ové participium slovesa být", za nímž vždy spojitě následuje tvar by". Na třetím a čtvrtém místě následuje spojitě nebo nespojitě tvar 1-ového participia slovesa bývat" a pasivního participia významového slovesa. Varianta 4 je obměnou varianty 3 v tom smyslu, že má pouze zaměněny pozice 1-ových participií pomocných sloves být" a bývat". Tyto tři tvary fungují jako nespojité složky složeného slovesného tvaru. Varianta 5 a 6 má na prvním místě pasivní participium významového slovesa, po němž bezprostředně vždy spojitě následuje tvar by". Nespojitě na třetím a čtvrtém místě následuje 1-ové participium slovesa být" a bývat" (varianta 5). Varianta 6 má pořadí opačné. Varianty 7 a 8 mají na prvním místě tvar by", za nímž spojitě nebo nespojitě následuje tvar pasivního participia významového slovesa. Ve variantě 7 stojí na třetím místě spojitě nebo nespojitě 1-ové participium slovesa být" a na čtvrtém místě spojitě nebo nespojitě 1-ové participium slovesa bývat". Ve variantě 8 je pořadí třetího a čtvrtého členu opačné. Následující příklady jsou z ČNK, příklady s! nebyly v korpusu nalezeny, existují ovšem potencionálně. Příklady: 1....<kdyby byly bývaly včas vyřčeny> Slovensko <by bývalo bylo rozděleno> <bylo by bývalo Lesbii probodnuto > srdce... 4.!<býval by byl chválen> 5.!<chválen by byl býval> 6.!<chválen by býval byl> 7. aniž <by mně sděleno bylo bývalo>... 8.!<by chválen býval byl> Imperativ reflexívních tvarů Tento tvar má dvě slovosledné varianty. Pokud stojí na prvním místě sloveso v imperativu, pak na druhém vždy spojitě následuje tvar zvratného se" (varianta 1). Pokud stojí se" na prvním místě, tvar slovesa následuje spojitě nebo nespojitě (varianta 2). Příklady: 1. <Dejte si> panáka pak <se nedivte>, že to Imperativ pasíva Tvar má dvě slovosledné varianty. Buď stojí na prvním místě tvar pomocného slovesa být" v imperativu a za ním spojitě nebo nespojitě následuje tvar pasivního participia (varianta 1), neboje pořadí složek opačné (varianta 2). Příklady: 1....Ale <bud'mepřipraveni> na všechno !<připraven buď>
9 MORFOLOGICKÉ ZNAČKOVANÍ SLOŽENÝCH SLOVESNÝCH TVARŮ V KORPUSU Vyhledávání složených slovesných tvarů v korpusových textech Automatické gramatické značkování korpusu naráží při značkování složených slovesných tvarů na značné obtíže. Přiřazení gramatických kategorií slovním tvarům je možné pouze s ohledem na celek, jejž spoluutvářejí, nebo lépe řečeno: gramatické významy příslušných kategorií lze rozumně přiřadit pouze celku, a ne jeho částem. Tak například prézentní tvary pomocného slovesa být" mohou signalizovat jak prézens, tak minulý čas, podobně i 1-ové participium (kondicionál přítomný). Formálně neosobní tvary 1-ového participia signalizují 3. osobu. Automatická lemmatizace a na ní založené automatické značkování korpusu se tudíž nemůže obejít bez automatického určování složek složených tvarů, na němž pak lze vystavět značkování složeného tvaru jako celku. Jednotlivé složky a jejich řazení lze poměrně dobře formálně popsat, jak jsme se o to pokusili v předešlých odstavcích. Největší problém při automatické analýze představují nespojité složky, respektive prostor mezi nimi. Z empirie lze vysoudit, že prostor textu mezi složkami může být více méně libovolně rozsáhlý. Pro realistický přístup k řešení naznačené problematiky je ovšem třeba podívat se na skutečné zastoupení jednotlivých slovosledných variant z hlediska frekvence. Taková analýza pomůže odhalit, které typy jsou frekventované a které okrajové, a ukáže, které otázky je třeba řešit primárně a které lze ponechat ruční" analýze. Ve druhé části našeho článku se budeme zabývat konkrétní materiálovou analýzou korpusu DESAM. 1.4 Korpus DESAM Korpus DESAM je subkorpusem ČNK, obsahuje cca 1 milion morfologicky označkovaných tvarů. Slovesné tvary jsou označeny pouze jako jednotlivá slova. Přesto lze prostřednictvím korpusového manažeru (GCQP) vyhledávat případy složených slovesných tvarů, analyzovat jejich frekvenci a typy chyb, k nimž při analýze za pomoci GCQP dochází. Dotazy, které můžeme nad korpusem prostřednictvím GCQP klást, mají totiž formu, která se velmi blíží formálnímu pravidlu popisujícímu hledaný tvar. Uvedené výsledky mohou značně přispět k vytváření korpusových nástrojů pro automatickou desambiguaci (zjednoznačnění) automaticky označených morfologických forem. Následující řádky obsahují převedení slovně formulovaných pravidel z první kapitoly do formy dotazů pro korpusový manažer GCQP. Pro čtení dotazu je třeba uvést, že se lze ptát na jednotlivé atributy, jimiž mohou být tvary slov (word), slova podle základního tvaru (lemma) a slova podle gramatické charakteristiky (tag). Dotazy jsou uzavřeny ve hranatých závorkách, mají formu typ= a v uvozovkách je uveden útvar, na nějž se tážeme. Tak např. dotaz [lemma=.*by"] [word!=." & lemma!= sebe"] {0,3} [word= "byl.*] [word!=."] {0,3} [tag= k5.*tmmp"] čteme následujícím způsobem: Vyhledej všechny kombinace, které začínají tvarem by", po nichž následuje nejméně 0 a nejvíce tři slova s výjimkou interpunkčního znaménka (. ") nebo tvarů reflexívního zájmena se", dále slovo začínající byl (rozuměj tvary byl..., bylý), po němž následuje minimálně 0 a maximálně 3 slova s výjimkou interpunkčního znaménka a končící libovolným tvarem slovesa v 1-ovém participiu. Stručně řeče-
10 42 KLÁRA OSOLSOBĚ no chceme vyhledat všechny případy kondicionálu minulého nereflexivních tvarů ve slovosledné variantě 1 (např.:pokud <by vládní koalice byla vyhrála> volby...) Přehled zastoupení jednotlivých tvarů podle slovosledných variant Pro zjednodušení zkoumaného materiálu jsme omezili rozsah prostoru mezi nespojitými složkami pro frekvenční analýzu na tři slova. Toto omezení by podle předběžného výzkumu nemělo přinést výrazné chyby ve frekvenční analýze. Při zkoumám takto vymezeného materiálu se celkem průkazně ukazuje, že počet spojitých tvarů obecně převažuje nad počtem nespojitých tvarů a že počet tvarů nespojitých klesá s počtem slov uvnitř prostoru tvořeného jednotlivými složkami nespojitých tvarů. U jednotlivých tvarů a slovosledných variant uvádíme vždy dotaz pro GCQP, číslo udávající počet nalezených odpovědí, číslo, které udává počet hledaných složených tvarů a % chyb. Tabulka uvádí vždy zastoupení slovosledných variant v poměru jejich výskytů a v % Reflexívní tvary v indikativu prézentu aktiva [lemma= sebe"] [word!=."] {0,3} [tag= k5.*tpmi.*"] chyb = 0,5% [tag= k5.*tpmi.*" & lemma!= býť'] [lemma= sebe"] chyb = 0% varianta % varianta % Poznámka: Chybné odpovědi ve variantě 1 způsobuje fakt, že nalezené zvratné se" patří ke slovesu, které není součástí hledaného slovesného tvaru (infinitivu, určitého tvaru slovesa, adjektivizovaného přechodníku přítomného), 1 chyba je způsobena chybným značkováním v korpusu DESAM Analytické futurum nereflexivních tvarů aktiva [lemma!= sebe"] {0,3} [lemma= být" & tag= k5.*tfmi.*"] [lemma!= sebe"] [word!=."] {0,2} [tag= k5.*mf.*"] chyb = 0% [lemma!= sebe"] {0,3}[tag= k5.*mf.*"] [lemma!= sebe"] [word!=."] {0,2} [lemma= být" & tag= k5.*tfmi.*] chyb = 0% varianta ,1% varianta ,9% Analytické futurum reflexívních tvarů aktiva [lemma= být" & tag= k5.*tfmi.*"] [lemma= sebe"] [word!=."] {0,3} [tag= k5.*mf.*"] chyb = 0%
11 MORFOLOGICKÉ ZNAČKOVANÍ SLOŽENÝCH SLOVESNÝCH TVARU V KORPUSU 43 [tag= k5.*mf.*"] [lemma= sebe"] [word!=."] {0,3} [lemma= být" & tag= k5.*tfmi.*"] chyb = 0% [lemma= sebe"] [word!=."] {0,3} [lemma= být" & tag= k5.*tfmi.*"] [word!=."] {0,3} [tag= k5.*mf.*"] chyb = 0% [lemma= sebe"] [word!=."] {0,3} [tag= k5.*mf.*"] [word!=."] {0,3} [lemma= být" & tag= k5.*tfmi.*"] chyb = 0% varianta % varianta % varianta % varianta 4 3 1% Poznámka: Pro získání srovnatelných poměrů sečteme výsledky variant 1+3 a Indikativ minulého času nereflexivních tvarů aktiva [lemma= být" & tag= k5.*tpmi.*"] [lemma!= sebe"] [word!=."] {0,2} [tag= k5.*tmmp.*"] chyb = 0% [tag= k5.*tmmp.*"] [lemma= být" & tag=,jc5.*tpmi.*"] [lemma!= sebe"] chyb = 2% varianta % varianta % Poznámka: Uvedená data nelze dosti dobře statistickysrovnávat s ostatními výsledky. Je tomu tak proto, že forma 3. osoby nereflexivních tvarů minulého času v češtině je vyjádřena nesloženým tvarem pouhým 1-ovým participiem. Abychom mohli alespoň částečně usuzovat na skutečné rozložení slovosledných variant, museli bychom provést klasifikaci zbývajících jednoduchých tvarů. Druhé variantě by odpovídalo postavení tvaru 1-ového participia signalizujícího 3. osobu minulého času indikativu aktiva na prvním místě ve větě. Co se týče chyb, ve variantě 2 jsou chybně zahrnuty tvary minulého času pasíva (<byl jsem> hrubě slovně napaden) Indikativ minulého času reflexívních tvarů aktiva [lemma= být" & tag= k5.*tpmi.*"] [lemma= sebe"] [word!=."] {0,3} [tag= k5.*tmmp*"] chyb = 0% [tag= k5.*tmmp.*"] [lemma= být" & tag= k5.*tpmi.*"] [lemma= sebe"] chyb = 0% [word!= byl.*"] [lemma!=.*by"] [lemma= sebe"] [word!=."] {0,3} [tag= k5.*tmmp.*"] chyb = 0% [tag= k5.*tmmp.*"] [lemma= sebe"] chyb = 0%
12 44 KLÁRA OSOLSOBĚ varianta % varianta % varianta % varianta % Poznámka: Uvedené percentuální zastoupení jednotlivých variant lze srovnávat s ostatními variantami, sečteme-li variantu 1+3 (81%) a variantu2+4 (19%). Dosažený výsledek je, jak je na první pohled zřejmé, blízký výsledkům poměru ostatních variant Kondicionál přítomný nereflexivních tvarů aktiva [lemma=.*by"] [lemma!= sebe"] [word!=."] {0,2} [tag= k5.*tmmp.*"] chyb = 3,13% [tag= k5.*tmmp.*"] [lemma= by"] [lemma!= sebe"] chyb = 1,8% varianta % varianta % Poznámka: Chyby v obou variantách jsou způsobeny tím, že odpovědi na dotaz v GCQP zahrnují jednak tvary kondicionálu minulého aktiva, jednak tvary kondicionálu přítomného pasíva Kondicionál přítomný reflexívních tvarů aktiva [lemma=.*by"] [lemma= sebe"] [word!=."] {0,3} [tag= k5.*tmmp.*"] chyb = 0,67% [tag= k5.*tmmp.*"] [lemma= by"] [lemma= sebe"] chyb = 0% varianta % varianta % Poznámka: Chyby ve variantě 1 jsou způsobeny tím, že odpověď na dotaz CQP zahrne rovněž tvary kondicionálu minulého Kondicionál minulý nereflexivních tvarů aktiva [lemma=.*by"] [lemma!= sebe"] [word!=."] {0,2} [word= byl*"] [word!=."] {0,3} [tag= k5.*tmmp.*"] chyb =0 % [word= byl.*"] [lemma=.*by"] [lemma!= sebe"] [word!=."] {0,2} [tag= k5.*tmmp.*"] 1 1 0chyb = 0% [tag= k5.*tmmp.*"] [lemma= by.*"] [lemma!= sebe"] [word!=."] {0,2} [word= byl.*"] varianta % varianta % varianta 3 0 0% Poznámka: Varianta 3 je z hlediska příznakovosti variantou varianty 2.
13 MORFOLOGICKÉ ZNAČKOVANÍ SLOŽENÝCH SLOVESNÝCH TVARŮ V KORPUSU Kondicionál minulý reflexívních tvarů aktiva [lemma=.*by"] [lemma= sebe"] [word!=."] {0,3} [word= byl.*"] [word!=."] {0,3} [tag= k5.*tmmp.*"] chyb = 0% [word= byl.*"] [lemma= by"] [lemma= sebe"] [word!=."] {0,3} [tag= k5.*tmmp.*"] [tag= k5.*tmmp.*"] [lemma= by"] [lemma= sebe"] [word!=."] {0,3} [word= byl.*"] varianta % varianta 2 0 0% varianta 3 0 0% Poznámka: O variantě 3 platí totéž, co bylo řečeno v předcházející poznámce Indikativ prézentu pasíva [lemma= být" & tag= k5.*tpmi.*"] [word!=."] {0,3} [tag= k5.*t_mp.*"] chyb = 0% [tag= k5.*t_mp.*"] [word!=."] {0,3} [lemma= býť* & tag= k5.*tpmi.*"] chyb = 15,5% Varianta % Varianta % Poznámka: Chyby ve variantě 2 jsou způsobeny tím, že významové a pomocné sloveso nepatří do téhož tvaru Indikativ futura pasíva [lemma= býť' & tag= k5.*tfmi.*"] [word!=."] {0,3} [tag= k5.*t_mp.*"] chyb = 0% [tag= k5.*t_mp.*"] [word!=."] {0,3} [lemma= býť l & tag= k5.*tfmi.*"] chyb = 33% Varianta ,4% Varianta 2 2 0,6% Poznámka: Chyba ve variantě 2 je způsobena chybným označkováním tvaru v korpusu DESAM Indikativ minulého času pasíva [lemma= být" & tag= k5.*tpmi.*"] [word!=."] {0,3} [word= byl.*"] [word!=."] {0,3} [tag= k5.*t_mp.*"] chyba =0,3 % [word= byl.*"] [lemma= být" & tag= k5.*tpmi.*"] [word!=."] {0,3} [tag= k5.*t_mp.*"] chyb = 0% [tag= k5.*t_mp.*"] [lemma= být" & tag= k5.*tpmi.*"] [word!=."] {0,3} [word= byl.*"]
14 46 KLÁRA OSOLSOBĚ [word=.,byl.*"] [lemma!= být" & tag!= k5.*tpmi.*"] [word!=."] {0,2} [tag= k5.*t_mp.*"] chyb = 0% [tag= k5.&t_mp.*"] [lemma!= být" & tag!= k5.*tpmi.*"] [word!=."] {0,2} [word= byl.*"] chyb = 0% varianta ,1% varianta ,9% varianta 3 0 0% varianta % varianta % Poznámka: Analogicky k případu minulého času reflexívních tvarů je pro získání srovnatelných výsledků třeba sečíst varianty 1+4 (95,1%) 2+5(+3) (4,9%). Chyba ve variantě 1 je způsobena nesprávnou analýzou případu <je třikrát více, neí bylo plánováno Kondicionál přítomný pasíva [lemma=.*by"] [word!=."] {0,3} [word= byl.*"] [word!=."] {0,3} [tag= k5.*t_mp.*"] chyb = 0% [word= byl.*"] [lemma=.*by"] [word!=."] {0,3} [tag= k5.*t_mp.*"] chyb = 0% [tag= k5.*t_mp.*"] [lemma=.*by"] [word!=."] {0,3} [word= byl.*"] varianta % varianta 2 8 7% varianta 3 0 0% Poznámka: O variantě 3 platí, to, co bylo řečeno výše Kondicionál minulý pasíva [lemma=.*by"] [word!=."] {0,3}[word= byl.*"] [word!=."] {0,3}[word= býval.*"] [word!=."] {0,3}[tag= k5.*t_mp.*"] [lemma=.*by"] [word!=."] {0,3} [word= bývat] [word!=."] {0,3} [word= byl"] [word!=."] {0,3} [tag= k5.*t_mp.*"] 0 0 0chyb=0% [word= byl.*"] [lemma=.*by"] [word!=."] {0,3} [word= býval.*"] [word!=."] {0,3} [tag= k5.*t_mp.*"] [word= býval.*"] [lemma=:.*by"] [word!=."] {0,3} [word= byl.*"] [word!=."] {0,3} [tag= k5.*t_mp.*") 0 : 0 0 chyb = 0% [tag= k5.*t_mp.*"] [lemma=.*by"] [word!=."] {0,3} [word= byl.*"] [word!=."] {0,3} [word= býval.*"]
15 MORFOLOGICKÉ ZNAČKOVÁNI SLOŽENÝCH SLOVESNÝCH TVARŮ V KORPUSU 47 [tag= k5.*t_mp.*"] [lemma=.*by"] [word!=."] {0,3} [word= býval.*"] [word!=."] {0,3} [word= byl.*"] [lemma=.*by"] [word!=. u ] {0,3} [tag= k5.*t_mp.*"] [word!=."] {0,3} [word= byl.*"] [word!=."] {0,3} [word= býval.*"] [lemma=.*by"] [word!=."] {0,3} [tag= k5.*t_mp.*"] [word!=."] {0,3} [word= býval.*"] [word!=."] {0,3} [word= byl.*"] varianta 1 0 0% varianta 2 0 0% varianta 3 0 0% varianta 4 0 0% varianta 5 0 0% varianta 6 0 0% varianta 7 0 0% varianta 8 0 0% Poznámka: Za bezpříznakovou lze považovat variantu 1. Ostatní jsou příznakové Imperativ reflexívních tvarů [tag= k5.*mr.*"] [lemma= sebe"] chyby = 1,9% [lemma= sebe"] [word!=."] {0,3} [tag= k5.*mr.*"] chyby = 10,2% varianta ,2% varianta ,8% Poznámka: Chyby ve variantě 1 i 2 byly způsobeny chybami ve značkování korpusu DESAM Imperativ pasivních tvarů [lemma= být" & tag= k5.*mr.*"] [tag= k5.*t_mp.*"] [tag= k5.*t_mp.*"] [lemma= být" & tag= k5.*mr.*"] varianta 1 0 0% varianta 2 0 0% 2.2 Přehled zastoupení jednotlivých tvarů podle variant v % tab. 2 IPArl ,8% IPAr ,5% IFA ,6% IFA2 34 0,13% IFA rl 32 0,12%
16 48 KLÁRA 0S0LS0B6 IFAr2 11 0,042% IFAr ,99% IFAr4 2 0,0076% IMA ,6% IMA ,42% IMA rl 371 1,42% IMAr ,68% IMAr % IMA r ,46% KPA ,1% KPA ,83% KPArl 889 3,41% KPAr ,39% KMA1 8 0,031% KM A 2 1 0,0038% KM A 3 0 0% KMArl 5 0,019% KMAr2 0 0% KMAr3 0 0% IPP ,59% IPP2 38 0,146% IFP ,33% IFP2 3 0,0076% IMP1 29 0,111% IMP2 11 0,042% IMP3 0 0% IMP ,32% IMP5 51 0,196% KPP ,422% KPP2 8 0,031% KPP 3 0 0% KMP 1 0 0% KMP2 0 0% KMP 3 0 0% KMP 4 0 0% KMP 5 0 0% KMP 6 0 0% KMP 7 0 0% KMP 8 0 0% Rl 201 0,77% R2 35 0,13% RP 1 0 0% RP2 0 0% CELKEM %
17 MORFOLOGICKÉ ZNAČKOVÁNI SLOŽENÝCH SLOVESNÝCH TVARŮ V KORPUSU Závěr Na základě frekvenční analýzy se ukazuje, že ačkoliv pro každý složený tvar existují nejméně dvě slovosledné varianty a vyskytují se i případy 3 až 8 variant, vždy jedna z variant je výrazně frekventovanější než druhá (druhé). Existují tedy jakési neutrální a příznakové varianty. Zajímavé je to, že neutrální (frekventované) varianty aktivních forem se většinou neshodují s variantami, o nichž uvažujeme jako o svého druhu základních tvarech (učebnicových tvarech, tvarech uváděných v gramatikách nebo slovnících). Například ve slovníku se reflexiva tantum (podmnožina zvratných tvarů) uvádějí ve variantě, v níž zvratné se" stojí za slovesem, přičemž ve většině slovosledných variant složených reflexívních tvarů stojí se" před ním. Gramatiky fixují slovosledné varianty, které jsou v textech řidčeji zastoupeny. Tento výsledek frekvenční analýzy ukazuje, že je ovšem třeba primárně počítat s variantami běžnějšími. To by mohlo mít dopad především na výuku češtiny jako cizího jazyka a rovněž na popis češtiny zaměřený na automatizaci její analýzy. Na základě zjištěných údajů a statistik lze formulovat některé obecnější závěry: 1. Poměr zastoupení příznakových a nepríznakových variant je téměř u všech tvarů srovnatelný. Existují-li např. dvě varianty, jak je tomu ve většině případů, pak bezpříznaková varianta zahrnuje 79% až 100% všech tvarů. Druhá varianta se pohybuje v rozmezí 21% až 0%. Celkový průměr je 90,2% ku 9,8%. Výrazné odchylky vykazují jednak tvary, kde nemáme srovnatelná čísla vzhledem k tomu, že část tvaru není vyjadřována složeným slovesným tvarem (indikativ prézentu aktiva, minulý čas), jednak tvary, které jsou velmi řídké (kondicionál minulý). Tvary, které mají více než dvě slovosledné varianty, lze na dvě varianty převádět (srov. poznámky u jednotlivých tvarů). 2. Z hlediska absolutní frekvence je počet chybně vyhledaných tvarů zanedbatelný. Relativně vysoké procento chyb (33%) u tvarů indikativu futura pasíva je z absolutního hlediska zanedbatelné, protože se týká pouze jednoho chybně určeného tvaru. Podobně je tomu i v případě indikativu prézentu pasíva, kde ve druhé variantě je 15,5% chybně vyhledaných tvarů, které ovšem představují pouze 7 nesprávně vyhledaných případů. V ostatních případech se chyba pohybuje mezi 3,13% až 0%, v průměru 1,47%. Analýza chybně vyhledaných tvarů přispěje v mnoha případech k opravám chyb v subkorpusu DESAM. 3. Na základě frekvenční analýzy můžeme říci, že počet chyb vzniklých při vyhledávání složených slovesných tvarů za pomoci manažeru GCQP je nízký. Lze tudíž předpokládat, že formální analýza založená na automatické analýze jednotlivých složek analyzátorem LEMMA a na pravidlech popisujících slovosledné varianty složených slovesných tvarů bude vykazovat dostatečně vysokou míru úspěšnosti.
18 50 KLÁRA OSOLSOBĚ LITERATURA HAVRÁNEK, B., JEDLIČKA A.: Česká mluvnice, SPN, Praha HAJIČ, J., HLADKÁ B.: Probabilistic and rule based tagging of an inflective language - a comparison, Technical Report No.l, ÚFAL MFF UK, November HAJIČ, J., HLADKA, B.: Tagging Inflective Languages: Prediction of morphological categoríes for a rich, structural tagset, Technical Report TR , ÚFAL MFF UK, Praha. JELÍNEK, J., BEČKA, J. V., TĚŠITELOVA. M.: Frekvence slov, slovních druhů a tvarů v českém jazyce, SPN, Praha LEECH, G.: Corpus Annotation Schemes, in: Literary and Linguistic Computing, Vol. 8, No. 4, 1993, TESITELOVA, M., a kol.: Kvantitativní charakteristiky současné češtiny, řada Studie a práce lingvistické. Academia, Praha TESITELOVA, M. a kol.: O čeitiné v číslech, Malá jazyková knilnice. Academia, Praha, OsOLSOBÉ, K.: Algoritmický popis české formální morfologie a strojový slovník češtiny, disertační práce, FF MU Bmo OSOLSOBE K., PALA. K, RYCHLÝ P.: Frekvence vzorů českých sloves (na materiálu Českého národního korpusu). SaS, 59,1998, s PALA, K.: Korpusová lingvistika informační technologie v lingvistice. Zpravodaj ÚVT MU, Brno PALA, K., RYCHLÝ, P., SMRŽ, P.: DESAM - Annotated Corpus for Czech, Proceedings of SOFSEM '97, Springer Verlag, New York, Hamburg PETR, J. a kol.: Mluvnice češtiny II, Academia, Praha SEVEČEK, P.: Morfologický analyzátor (lemmatizátor) LEMMA, program v jazyce C, Bmo MORPHOLOGICAL TAGGING OF THE COMPOUND VERB FORMS IN CORPUS The article elaborates the word-order rules of the compound forms of the Czech verbs analysing the absolute and the relative frequency of the different variants. This analysis is based on electronic source: i.e. on the Czech National Corpus (CNK), using its grammatically annotated subcorpus DESAM containing word forms, with a support of the GCQP corpus manager. The present statě of the subcorpus DESAM is not satisfactory. Tagging of verb forms in it is too simplified. Each form has only one tag, so that the composed forms are not tagged as different units. It would be necessary to start with the formulation of the word-order rules of the compound forms (chapter 1). In the chapter 2 the word-order rules are transformed into the form of GCQPquerries and the analysis of obtained materiál follows. Comparing the frequency of different word-chains we get a list of the marked and the unmarked variants of each compound verb form. The relation between the marked and the unmarked form is in average 9,8% : 90,2%. The absolute number of the falše answers" (wrongly designated composed forms) is relatively low (1,47% on the average). It means that the automatic analysis based on the chosen rules comes out with high efficiency. Klára Osolsobě Ústav českého jazyka Filozofické fakulty MU Ama Nováka Bmo klara@ernest.phil.muni.cz
Jak lze v korpusech hledat doklady pro výzkum morfologie?
Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105
Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl
KORPUS SOUKROMÉ KORESPONDENCE (KSK) Z HLEDISKA MORFOLOGICKÉHO ZNAČKOVÁNÍ (Studie byla připravena v rámci projektu GA ČR č.
SBORNÍK PRACÍ FILOZOFICKÉ FAKULTY BRNĚNSKÉ UNIVERZITY STUDIA MINORA FACULTATIS PHILOSOPHICAE UNIVERSITATIS BRUNENSIS A 54, 2006 LINGUISTICA BRUNENSIA KLÁRA OSOLSOBĚ KORPUS SOUKROMÉ KORESPONDENCE (KSK)
SLOVESA (VERBA) Slovesa (verba) Vytvořeno dne: Metodický popis anotace:
SLOVESA (VERBA) Název materiálu: Název sady: Vzdělávací oblast: Vzdělávací obor: Téma: Jméno autora: VY_32_INOVACE_CJ2r0111 Morfologie pro 2. ročník Jazyk a jazyková komunikace Český jazyk a literatura
Popis gramatických významů (hodnot) jednoduchých slovesných tvarů v anotacích českých (slovenských) korpusů
Popis gramatických významů (hodnot) jednoduchých slovesných tvarů v anotacích českých (slovenských) korpusů Klára Osolsobě V tomto článku se budeme zabývat problematikou morfologických anotací jednoduchých
ANOTACE K VÝUKOVÉ SADĚ
Číslo projektu Číslo a název šablony klíčové aktivity Tematická oblast (předmět) Autor ANOTACE K VÝUKOVÉ SADĚ CZ.1.07/1.5.00/34.0705 III/2 Inovace a zkvalitnění výuky prostřednictvím ICT SLOVESA (ANGLICKÝ
PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.
PLIN041 Vývoj počítačové lingvistiky Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno Mgr. Dana Hlaváčková, Ph.D. Korpusová lingvistika v ČR lexikografické počátky 1988 Iniciativní skupina pro
Korpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
TVAROSLOVÍ Mgr. Soňa Bečičková
TVAROSLOVÍ Mgr. Soňa Bečičková SLOVESA VY_32_INOVACE_CJ_3_17 OPVK 1.5 EU peníze středním školám CZ.1.07/1.500/34.0116 Modernizace výuky na učilišti Druhy sloves, slovesné kategorie, slovesné tvary určité
Algoritmus určování slovesných tříd a vzorů v češtině Klára Osolsobě 5. tř. dělá 4. tř. 4. tř. prosit 4. tř. sázet 4. tř. 4. tř. trpět sázet 3. tř.
Algoritmus určování slovesných tříd a vzorů v češtině Klára Osolsobě Algoritmus funguje v případě, že mluvčí je schopen správně tvořit všechny požadované tvary. Řada rodilých mluvčích totiž při postupu
Dotazy v CQL (pro Sketch Engine)
Masarykova univerzita Filozofická fakulta Dotazy v CQL (pro Sketch Engine) PLIN021: Sémantická analýza v praxi Daniela Chalupníková Nikol Volková 2013 Obsah Úvod... 3 I. Co je to CQL... 4 II. Pojmy...
Workshop o paralelním korpusu InterCorp
Workshop o paralelním korpusu InterCorp Praha, 6.9.2013 Olga Richterová, ÚČNK Český národní korpus (LM2011023; 2012-2016) Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro
Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.
Korpusová lingvistika a počítačová Od 60. let 20. st. Raná korpusová lingvistika (konec 19. st 50. léta 20. st., Early corpus linguistics) strukturalistická tradice, americký deskriptivismus, metody založené
Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti
Prima jednoduše mluví o sobě Slovní zásoba: elementární slovní 1 B/ 26, 27, 29, 30 tvoří jednoduché otázky a aktivně je používá zásoba pro zvolené tematické okruhy odpovídá na jednoduché otázky obsahující
SLOVNÍ DRUHY Platón Aristoteles Dionysios Thrácký Priscianus
SLOVNÍ DRUHY Historicky podmíněná kategorizace lexikálních jednotek/slov. Védángy (disciplíny umožňující studium véd Nirukta 5./6. stol. př. n. l. základy popisu jazyka glosář etymologie, forma a význam
Depfix: Jak dělat strojový překlad lépe než Google Translate
Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
Základní pojmy matematické logiky
KAPITOLA 1 Základní pojmy matematické logiky Matematická logika se zabývá studiem výroků, jejich vytváření a jejich pravdivostí. Základním kamenem výrokové logiky jsou výroky. 1. Výroková logika Co je
Místo pojmu výroková formule budeme používat zkráceně jen formule. Při jejich zápisu
VÝROKOVÁ LOGIKA Matematická logika se zabývá studiem výroků, jejich vytváření a jejich pravdivostí. Základním kamenem výrokové logiky jsou výroky. Co je výrok nedefinujejme, pouze si řekneme, co si pod
Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/
Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami reg. č.: CZ.1.07/2.2.00/28.0076 Úvod do kvantitativní lingvistiky Radek Čech Kvantitativní lingvistika co Vás napadne,
Popis morfologických značek poziční systém
Popis morfologických značek poziční systém Jan Hajič Ústav formální a aplikované lingvistiky MFF UK Morfologická analýza a syntéza Morfologické značky jsou součástí výsledku (výstupem) morfologické analýzy,
4.9.1. Základy latiny II
4.9.1. Základy latiny II Základy latiny jsou dvouletý volitelný předmět, jehož hlavním cílem je poskytnout žákům základní orientaci v systému latinské gramatiky v rozsahu středoškolského učiva a připravit
Jak psát Bc. resp. Mgr. závěrečnou práci. Zpracoval: Karel Bílek
Jak psát Bc. resp. Mgr. závěrečnou práci Zpracoval: Karel Bílek Tato prezentace vznikla v rámci řešení doktorského projektu GAČR 523/03/H076 duben 2005 Textový dokument... co to je? Textovým dokumentem
Český jazyk - Jazyková výchova
Prima Zvuková stránka jazyka Stavba slova a pravopis rozlišuje spisovný jazyk, nářečí a obecnou češtinu Jazyk a jeho útvary seznamuje se s jazykovou normou spisovně vyslovuje česká a běžně užívaná cizí
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady
1. Přehled cizojazyčných a vícejazyčných korpusů
1. Přehled cizojazyčných a vícejazyčných korpusů typy korpusů a možnosti jejich využití 2. Nová verze korpusu InterCorp (prosinec 2014) nové jazyky a texty lemmatizace a značkování 3. Webové korpusy srovnatelné
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek I. Zpracování textu II. III. IV. Jazyk G Desambiguace Kontrola gramatiky V. Kontrola stylu VI. Valence sloves VII. Vývoj a odezva I. Zpracování
Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého
STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého Počet kreditů: 1 Typ předmětu: volitelný Způsob zakončení: zápočet Garant
Základy popisné statistiky
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2
Pokyny pro formální zpracování maturitní práce
Vyšší odborná škola a Střední průmyslová škola elektrotechnická F. Křižíka Praha 1, Na Příkopě 16 Pokyny pro formální zpracování maturitní práce V Praze dne: 15. 10. 2008 Ing. Jan Hildebrand ředitel školy
Úvod do kvantitativní lingvistiky. Radek Čech
Úvod do kvantitativní lingvistiky Radek Čech Historie KL G. K. Zipf (1902-1950) PLK B. Trnka (problematika těsnopisu) M. Těšitelová a kol. G. Altmann, R. Köhler, L. Hřebíček Místo KL v lingvistice cíle
Vyšší odborná škola a Střední průmyslová škola elektrotechnická F. Křižíka Praha 1, Na Příkopě 16. Pokyny pro formální zpracování absolventské práce
Vyšší odborná škola a Střední průmyslová škola elektrotechnická F. Křižíka Praha 1, Na Příkopě 16 Pokyny pro formální zpracování absolventské práce Vyšší odborná škola a Střední průmyslová škola elektrotechnická
LATINA. Oddíl E učební osnovy VI.1.B
LATINA Oddíl E učební osnovy VI.1.B Charakteristika předmětu: LATINA ve vyšším stupni osmiletého studia Obsah předmětu Latinský jazyk plní jednak funkci propedeutickou, tj. poskytuje elementární úvod do
Tabulka 1. Výběr z datové tabulky
1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat
4.9.2. Příprava na Cambridge English
4.9.2. Příprava na Cambridge English Seminář je určen pro pokročilé žáky anglického jazyka, kteří se chtějí systematicky připravovat ke zkoušce k získání nejrozšířenějšího mezinárodně uznávaného certifikátu
OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický
OBSAH Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický Úvod Rozdělení jazykového rozboru Poměr fonologie k fonetice. Dějiny bádání Fonémy a varianty Monofonémové hodnocení hláskových komplexů Dvoufonémové
Jednoduchá sdělení představování, poděkování, pozdrav, omluva Základní výslovnostní návyky
Učební osnovy Ruský jazyk PŘEDMĚT: Ruský jazyk Ročník: 7. třída 1 rozumí jednoduchým pokynům a otázkám učitele, které jsou pronášeny pomalu a s pečlivou výslovností, a reaguje na ně 1p je seznámen se zvukovou
Olympiáda v českém jazyce 45. ročník 2018/2019
Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, 110 00 Praha 1 Olympiáda v českém jazyce 45. ročník 2018/2019 Krajské kolo zadání I. kategorie přidělené soutěžní číslo body gramatika sloh
Aktuální změny v didaktickém testu z češtiny 2015
Aktuální změny v didaktickém testu z češtiny 2015 PhDr. Dana Brdková Lektorka Bankovní akademie a VŠFS Pro použití v rámci projektu ematurity Jak je sestaven didaktický test? Didaktický test obsahuje 10
angličtina Water Quality
angličtina Water Quality V rámci následujícího úkolu se studenti seznámí s odborným textem v angličtině, se kterým se mohou setkat při práci s moderní výukovou technikou PASCO. Manuály pro experimenty
Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT
Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM Číslo projektu: CZ.1.07/1.5.00/34.0536 Název projektu školy: Výuka s ICT na SŠ obchodní České Budějovice Šablona
Zdvojená slovesa v současné češtině
JAN CHROMÝ Zdvojená slovesa v současné češtině Double-paradigm verbs in contemporary Czech This paper presents an analysis of so-called double-paradigm verbs (muset musit, bydlet bydlit, myslet myslit,
1. Vnitřní stěhování v České republice
1. Vnitřní stěhování v České republice Objem vnitřní migrace v České republice je dán stěhováním z obce do jiné obce. Proto je třeba brát v úvahu, že souhrnný rozsah stěhování je ovlivněn i počtem obcí.
P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i
n-gramy a textové korpusy n-gramy Pavel Rychlý, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Úkol: Je zadáno n slov textu, jaké slovo následuje s největší pravděpodobností? Obsah:
Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen
Paralelní korpusy 0/2 Z, zimní semestr 2006/2007 Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofická fakulta Univerzity Karlovy v Praze Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 1
7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
aneb Will Smith nebo Will Scarlet?
aneb Will Smith nebo Will Scarlet? 2013 Angličtina nemá žádný gramatický budoucí čas, tak jak ho známe z jiných jazyků. Pomáhá si tedy různými gramatickými konstrukcemi, které mají budoucí význam. Každou
Naproti tomu gramatika je vlastně soupis pravidel, jak
1 Kapitola 1 Úvod V přednášce se zaměříme hlavně na konečný popis obecně nekonečných množin řetězců symbolů dané množiny A. Prvkům množiny A budeme říkat písmena, řetězcům (konečným posloupnostem) písmen
12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ
56 12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ Těžiště I. impulsová věta - věta o pohybu těžiště II. impulsová věta Zákony zachování v izolované soustavě hmotných bodů Náhrada pohybu skutečných objektů pohybem
Tematický okruh. Výstupy žáka. Module One. Průřezové. Mezipřed mětové vztahy. téma. Poslech s porozuměním (P+R) Jazykové prostředky a funkce
ot Spot 5 Module One Všechno o mně Veřejná podpora talentů Osobní všechno o mně Společenská přátelství Pracovní životopis Poslech s porozuměním (P+R) - rozumí informacím v jednoduchých poslechových textech,
SDĚLENÍ Ministerstva pro místní rozvoj ze dne 12. června 2009
SDĚLENÍ Ministerstva pro místní rozvoj ze dne 12. června 2009 o roztřídění obcí do velikostních kategorií podle počtu obyvatel, o územním rozčlenění obcí seskupením katastrálních území, o výši základních
Present simple (přítomný čas prostý)
Present simple (přítomný čas prostý) MASARYKOVA ZÁKLADNÍ ŠKOLA A MATEŘSKÁ ŠKOLA VELKÁ BYSTŘICE projekt č. CZ.1.07/1.4.00/21.1920 Název projektu: Učení pro život Číslo DUMu: VY_32_INOVACE_11_12 Tématický
2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.
TABULKY SLOVÍČEK Už před lety jsem si všiml, že z nějakého důvodu studenti na základní a dokonce i na pokročilejší úrovni často neznají některá úplně základní slovíčka. Nejvíce se to dá pozorovat u sloves,
VZ2017 matematika 5R MATEMATIKA. Jan Strnad. Třída: 5.třída
Výsledky testu Výběrové zjišťování výsledků žáků 2016/2017 5. a 9. ročník ZŠ Školní rok 2016/2017 VZ2017 matematika 5R MATEMATIKA Jan Strnad Třída: 5.třída Základní škola a mateřská škola, Praskačka, okres
GRAFICKÉ ŘEŠENÍ ROVNIC A JEJICH SOUSTAV
GRAFICKÉ ŘEŠENÍ ROVNIC A JEJICH SOUSTAV Mgr. Jitka Nováková SPŠ strojní a stavební Tábor Abstrakt: Grafické řešení rovnic a jejich soustav je účinná metoda, jak vysvětlit, kolik různých řešení může daný
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
ANGLICKÝ JAZYK - II. období (3. 5. ročník)
ANGLICKÝ JAZYK - II. období (3. 5. ročník) Charakteristika předmětu V návaznosti na obsah učiva 1. a 2. ročníku žáci začínají vytvářet jednoduché věty, kde se potřebné výrazy a spojení procvičují. Žáci
Angličtina pro číšníky a kuchaře
Angličtina pro číšníky a kuchaře Dagmar Lanská, Jaroslava Kutová Angličtina pro číšníky a kuchaře Dagmar Lanská, Jaroslava Kutová Vydání 1. 2015 Vydalo nakladatelství Ekopress, s. r. o. K Mostu 124, Praha
Přednáška 3: Limita a spojitost
3 / 1 / 17, 1:38 Přednáška 3: Limita a spojitost Limita funkce Nejdříve je potřeba upřesnit pojmy, které přesněji popisují (topologickou) strukturu množiny reálných čísel, a to zejména pojem okolí 31 Definice
ČTENÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
ČTENÍ Jazyk Úroveň Autor Kód materiálu Anglický jazyk 9. třída Mgr. Martin Zicháček aj9-kap-zic-cte-01 Z á k l a d o v ý t e x t ( 1 5 0 2 5 0 s l o v ) : Christmas Christmas is for many people in the
Morfologie odborných textů
Morfologie odborných textů Yvona Řepová Název školy Název a číslo projektu Název modulu Obchodní akademie a Střední odborné učiliště, Veselí nad Moravou Motivace žáků ke studiu technických předmětů OP
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT
Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM Číslo projektu: CZ.1.07/1.5.00/34.0536 Název projektu školy: Výuka s ICT na SŠ obchodní České Budějovice Šablona
Matematické modelování dopravního proudu
Matematické modelování dopravního proudu Ondřej Lanč, Alena Girglová, Kateřina Papežová, Lucie Obšilová Gymnázium Otokara Březiny a SOŠ Telč lancondrej@centrum.cz Abstrakt: Cílem projektu bylo seznámení
MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)
TEMATICKÝ PLÁN (ŠR 2014/15) PŘEDMĚT Český jazyk TŘÍDA/SKUPINA VYUČUJÍCÍ ČASOVÁ DOTACE UČEBNICE (UČEB. MATERIÁLY) - ZÁKLADNÍ POZN. (UČEBNÍ MATERIÁLY DOPLŇKOVÉ aj.) sekunda Mgr. Barbora Maxová 2hod/týden,
ŠVP Gymnázium Ostrava-Zábřeh. 4.8.20. Latina
4.8.20. Latina A) Obsahové, časové a organizační vymezení předmětu: Důležitost a význam studia latinského jazyka dokazuje nejen jeho několikasetletá tradice. I v dnešní době má tento doplňující vzdělávací
n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?
n-gramy a textové korpusy n-gramy Pavel Rychlý, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Úkol: Je zadáno n slov textu, jaké slovo následuje s největší pravděpodobností? Obsah:
POSTOJE UŽIVATELŮ K TVARŮM INDIKATIVU PRÉZENTU SLOVES III. TŘÍDY
POSTOJE UŽIVATELŮ K TVARŮM INDIKATIVU PRÉZENTU SLOVES III. TŘÍDY Eva JANDOVÁ Abstrakt: Příspěvek se zabývá postoji uživatelů češtiny k hovorovým tvarům sloves vzorů kryje a kupuje, které respondenti vyjádřili
Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT
Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM Číslo projektu: CZ.1.07/1.5.00/34.0536 Název projektu školy: Výuka s ICT na SŠ obchodní České Budějovice Šablona
Internetové doplňky učebnice Mluvnice pro střední školy
podpora Internetové doplňky učebnice Mluvnice pro střední školy s. 11 1. lištový odkaz Podrobné složení mluvidel se pokuste najít v učebnici biologie či jiné odborné literatuře. Můžete hledat i na www.fraus.cz.
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
Střední vzdělání s MZ, čtyřletý maturitní obor 2. ročník
Anotace Tematický celek zaměřený na tvarosloví - přehled slovních druhů je zpracován do textového souboru, který lze použít pro více vyučovacích hodin k výkladu dané problematiky. Text seznámí žáky se
Faktorované překladové modely. Základní informace
Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace
HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT
HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT Funkce Najít a nahradit slouží k rychlému vyhledávání určitých slov a jejich nahrazování jinými slovy. Lze hledat i určité varianty slov a nahrazovat je buď hromadně (všechny
Výsledky dotazníkového šetření pro potřeby monitorování užívání legálních a nelegálních návykových látek na základní škole v letech 2009-2013
Výsledky dotazníkového šetření pro potřeby monitorování užívání legálních a nelegálních návykových látek na základní škole v letech 2009-2013 Již čtvrtým rokem probíhá výzkum pomocí dotazníkového šetření
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,
Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace
Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 5. Průřezová témata Mezipředmětové vztahy.
Ročník: 5. OSV - rozvoj individuálních dovedností pro kooperaci (seberegulace v situaci nesouhlasu, odporu apod., dovednost odstoupit od vlastního nápadu, dovednost navazovat na druhé a rozvíjet vlastní
1 Substantiva. 2 Adjektiva. Obsah. Lekce Obsah Cvičení
Obsah Úvod. Substantiva. Adjektiva. Personalia, posesiva. Demonstrativa. Interogativa, relativa 0. Indefinita, negativa. Numeralia 0. Verba prézentní tvary. Verba préteritum 0. Verba aspekt. Verba futurum.
Slovníky a morfologická analýza
Počítačové zpracování přirozeného jazyka Slovníky a morfologická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/ Slovník Zásobárna informací o slovech Morfologie vzory ohýbání, pravidelné odvozování
K slovosledu mluvené češtiny v rumunském Bígru
K slovosledu mluvené češtiny v rumunském Bígru Karolína Vyskočilová 30. Žďárek, Litoměřice, 20.-22. dubna 2012 vyskoczilova@seznam.cz SEM VLOŽIT MAPU RUMUNSKA http://maps.google.cz/maps?q=mapy+rumunsk
ANGLICKÝ JAZYK - II. období (3. 5. ročník)
ANGLICKÝ JAZYK - II. období (3. 5. ročník) Charakteristika předmětu V návaznosti na obsah učiva 1. a 2. ročníku žáci začínají vytvářet jednoduché věty, kde se potřebné výrazy a spojení procvičují. Žáci
Úvod do filtrace, Quick filtr
Příručka uživatele systému Památkový katalog Úvod do filtrace, Quick filtr verze 1.x.x Autorská práva Copyright 2015 MUSOFT.CZ, s.r.o.. Všechna práva vyhrazena. Tato příručka je chráněna autorskými právy
VZ2017 ČASP 5R ČLOVĚK A SVĚT PRÁCE. Jakub Kvasnička. Třída: 5.třída
Výsledky testu Výběrové zjišťování výsledků žáků 2016/2017 5. a 9. ročník ZŠ Školní rok 2016/2017 VZ2017 ČASP 5R ČLOVĚK A SVĚT PRÁCE Jakub Kvasnička Třída: 5.třída Základní škola a mateřská škola, Praskačka,
Francouzský jazyk. Náměty jeu de role skupinová práce jazykové hry domácí úkoly práce s časopisy
Francouzský jazyk ročník TÉMA VÝSTUP G5 Tematické okruhy rodina škola místo, kde žije bydlení volný čas a zájmová činnost jídlo oblékání nákupy některé svátky, tradice příroda cizí země omluva a reakce
Univerzita Karlova v Praze, Nakladatelství Karolinum, 2015 Robert Adam, 2015
Morfologie Příručka k povinnému předmětu bakalářského studia oboru ČJL Robert Adam Grafická úprava Jan Šerých Sazba DTP Nakladatelství Karolinum Vydání první Univerzita Karlova v Praze, Nakladatelství
Anglický jazyk
5.1.2 5.1.2 Anglický jazyk ANGLICKÝ JAZYK - 3. ročník 5.1.2/01 Výstupy ŠVP Učivo Průřezová témata, přesahy RECEPTIVNÍ, PRODUKTIVNÍ A INTERAKTIVNÍ ŘEČOVÉ DOVEDNOSTI Žák: osvojí si slovní zásobu v rámci
Vývoj vědeckého myšlení
Vývoj vědeckého myšlení Systémovost logistického řešení je spjata se schopností řešit komplexy navzájem souvisejících úkolů. V rámci vývoje vědeckého myšlení uvádí americký autor Waren Weaver tři vývojová
Gymnázium Dr. J. Pekaře Mladá Boleslav PRAVIDLA PRO PSANÍ MATURITNÍ PRÁCE
Gymnázium Dr. J. Pekaře Mladá Boleslav Maturitní práce PRAVIDLA PRO PSANÍ MATURITNÍ PRÁCE Předmět: Např. Český jazyk a literatura Datum a rok odevzdání: xx. x. 2016 Jméno a příjmení: Jan NOVÁK Ročník:
Výroková logika II. Negace. Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0).
Výroková logika II Negace Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0). Na konkrétních příkladech si ukážeme, jak se dají výroky negovat. Obecně se výrok dá negovat tak, že před
Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky
Otázka 20 A7B36DBS Zadání... 1 Slovníček pojmů... 1 Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky... 1 Zadání Relační DB struktury sloužící k optimalizaci
Předmět: ANGLICKÝ JAZYK Ročník: 1.
Ročník: 1. ŘEČOVÉ DOVEDNOSTI výslovností, a reaguje na ně verbálně i neverbálně - zopakuje a použije slova a slovní spojení, se kterými se v průběhu výuky setkal - rozumí obsahu jednoduchého krátkého mluveného
Vzdělávací oblast: Inovace a zkvalitnění Vzdělávací obor: žáci SOU všechny obory výuky cizích jazyků na středních školách
STŘEDNÍ ODBORNÁ ŠKOLA A STŘEDNÍ ODBORNÉ UČILIŠTĚ NERATOVICE Školní 664, 277 11 Neratovice, tel.: 315 682 314, IČO: 683 834 95, IZO: 110 450 639 Ředitelství školy: Spojovací 632, 277 11 Neratovice tel.:
Využití software ITEMAN k položkové analýze a analýze výsledků testů
11. konference ČAPV Sociální a kulturní souvislosti výchovy a vzdělávání Využití software ITEMAN k položkové analýze a analýze výsledků testů Petr Byčkovský, Marie Marková Postup při návrhu a ověření testu
5.2.4 POMĚRNÁ ČÍSLA SPLNĚNÍ PLÁNU
Druhy poměrných čísel Aleš Drobník strana 1 5.2.4 POMĚRNÁ ČÍSLA SPLNĚNÍ PLÁNU Poměrná čísla neboli poměrní ukazatelé : Získáme srovnáním (podílem) 2 veličin stejnorodých. Srovnávaná veličina (čitatel)
Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY. Karel Oliva Ústav pro jazyk český Akademie věd ČR
Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY Karel Oliva Ústav pro jazyk český Akademie věd ČR Předchůdce: korektor pravopisu Příklad: Psi štěkaly. OK Technologie: vyhledávání v (dlouhém) seznamu slov slovo
Analýza veřejných zakázek v oblasti zdravotnictví
Analýza veřejných zakázek v oblasti zdravotnictví 1. Cíle analýzy Tato zpráva byla vypracována na základě analýzy zakázek veškerých zadavatelů dle zákona 137/2006, o veřejných zakázkách, získaných z Informačního