Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Podobné dokumenty
Jak lze v korpusech hledat doklady pro výzkum morfologie?

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

VĚTNÉ ČLENY. Mgr. Jiří Ondra Procvičení základních pojmů a kategorií z oblasti české skladby. Zdokonalování jazykových vědomostí a dovedností

NLP & strojové učení

Autor: Jan Hošek

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Support Vector Machines (jemný úvod)

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Automatické vyhledávání informace a znalosti v elektronických textových datech

ve strojovém překladu

Základní škola a Mateřská škola Třemešná Třemešná 341 tel: IČ:

Automatická detekce emocí v textu

Juxtapozice z do v Arabštině

Využití metod strojového učení v bioinformatice David Hoksza

Automatická detekce emocí v textu

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Aplikace obrazové fúze pro hledání vad

Automatická oprava textu v různých jazycích

Strojové učení Marta Vomlelová

RECENZE A REFERÁTY 247

Všestranný jazykový rozbor (VJR)

Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY. Karel Oliva Ústav pro jazyk český Akademie věd ČR

Měření efektivity informačního vzdělávání. Mgr. Gabriela Šimková KISK, Filozofická fakulta MU

VY_32_INOVACE_ / IQ cesta

Lineární diskriminační funkce. Perceptronový algoritmus.

Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Dolování z textu. Martin Vítek

Popisná statistika - úvod

Koncept odborného vzdělávání

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Metody tvorby politik (MTP) Zimní semestr 2018/2019 Katedra veřejné a sociální politiky FSV UK

Vzdělávací obsah vyučovacího předmětu

Neuronové sítě (11. přednáška)

MAL. one of the best corroborated law in linguistics

OSA. maximalizace minimalizace 1/22

Olympiáda v českém jazyce, 38. ročník, 2011/2012 krajské kolo

Lineární klasifikátory

SLOVNÍ DRUHY. Vytvořeno dne: druhů, vymezuje tři základní kritéria členění. Závěr prezentace slouží k procvičení osvojených poznatků.

Unstructured data pre-processing using Snowball language

Slovní druhy. Ohebné i neohebné

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

1. Matematická logika

Predikátová logika Individua a termy Predikáty

+ 1. doc. Ing. Jan Skrbek, Dr. - KIN. Konzultace: pondělí nebo dle dohody. Spojení:

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy

TECHNOLOGICKÁ PLATFORMA SILNIČNÍ DOPRAVA

NG C Implementace plně rekurentní

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Implementace IS HAP na LF UP Jana Talašová

Dataprojektor, kodifikační příručky

Strojové učení se zaměřením na vliv vstupních dat

Téma dizertační práce - Strategie ŠKODA AUTO pro čínský trh

Základy vědecké práce Nová studentská laboratoř

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

ZŠ ÚnO, Bratří Čapků 1332

Máte již dobře vyzbrojeného firemního SYNTETIKA?

Unární je také spojka negace. pro je operace binární - příkladem může být funkce se signaturou. Binární je velká většina logických spojek

Výroková logika. Sémantika výrokové logiky

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Sémantický web 10 let poté

Olympiáda v českém jazyce 44. ročník, 2017/2018

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Název materiálu: Jazykové rozbory

2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.

Dobývání a vizualizace znalostí

SYNTAX LS Úvod

EVALUACE OP V LETECH VÝSLEDKY META-EVALUAČNÍHO ŠETŘENÍ Mgr. Jiří Remr, Ph.D., MBA

Textmining a Redukce dimenzionality

Perfektym v současné cestine

ASK. Test deduktivního a kreativního myšlení. HTS Report. Jan Ukázka ID Datum administrace Standard 1. vydání

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Olympiáda v českém jazyce 45. ročník, 2018/2019

LFA po roce a činnost PS LFA

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

MANAŽERSKÉ ROZHODOVÁNÍ ZA VYUŽITÍ METOD PRO ZPRACOVÁNÍ DOKUMENTŮ

Vyhledávání nebo nalezení informací

Deskripční logika. Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Deskripční logika 37 / 157

Školní vzdělávací program Základní školy a mateřské školy Sdružení

Úvod do zpracování signálů

Postojová modalita a možnosti automatické extrakce emocionality z psaného textu

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Žák se seznámí se základními pojmy morfologie tvarosloví, ohebnost, význam slov.

PROVOZNÍ SPOLEHLIVOST STROJŮ A ČISTOTA OLEJE. František HELEBRANT, Vladislav MAREK,

SOCIÁLNÍ PEDAGOGIKA A PORADENSTVÍ: OKRUHY OTÁZEK Státní závěrečná zkouška bakalářská

RVP ŠVP UČIVO - rozlišuje a příklady v textu dokládá nejdůležitější způsoby obohacování slovní zásoby a zásady tvoření českých slov

Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1

ADVERBS M/01 Informační technologie Vzdělávací oblast (RVP) Jazykové vzdělávání Vzdělávací obor (název ŠVP)

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Olympiáda v českém jazyce 42. ročník 2015/2016

Workshop o paralelním korpusu InterCorp

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Jak pracuje internetový vyhledávač

Detekce a rozpoznávání mincí v obraze

Aktuální změny v didaktickém testu z češtiny 2015

OPAKOVÁNÍ SLOHOVÝCH ÚTVARŮ I. Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje

Transkript:

Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1

Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání Závěr 2

podoblast tzv. Opinion Miningu Polarita klasifikace textu v rámci Opinion Miningu: faktorem míra subjektivity fakta vs. názory Český prezident je volen oběma komorami Parlamentu vs. Český prezident je ve světě velmi oblíben. určení polarity = zhodnocení názoru vyjádřeného v textu v rámci opozice pozitivní vs. negativní Mám ráda rýži vs. Nesnáším brambory 3

Polaritu určujeme na základě polárních výrazů (např. dobrý, špatný atd.) polárními výrazy nemusejí být vždy frekventovaná slova polární výrazy jsou závislé na kontextu Př. vyjádření členské negace: [Ne hodný] byl ten chlapec, ale vypočítavý a mstivý. 4

Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání Závěr 5

Cíl Rozhodnout, zda daná věta vyjadřuje pozitivní či negativní názor. Všechny věty, jejichž polaritu budeme určovat, musejí být vyhodnoceny v rámci Opinion Miningu jako subjektivní názory. 6

Motivace Proč se zabývat polaritou na úrovni věty? přesnější rozlišení než na delších úsecích textu užitečné v oblastech NLP jako je Question Answering Sumarizace textu polární výrazy obvykle nebývají v textu rozmístěny rovnoměrně (vliv na celkové hodnocení) 7

TEXT dobře špatný skvělý rád úžasné pěkně bezvadný Polarita na úrovni textu Určující je četnost Není nutná přesná interpretace každého slova Není nutné slovnědruhové zařazení P OLARITA = POZITIVNÍ 8

dobře POLARITA = POZITIVNÍ Polarita na úrovni věty Nutná přesná interpretace jednotlivých výrazů Ve větě obsaženo méně informací Nutno určit slovní druh 9

Přínos Zkoumání jazykových rysů v souvislosti se strukturou věty Využití kombinace jazykových rysů + polarity ve strojovém učení (supervised machine learning) 10

Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání Závěr 11

Polarita na úrovni slova Slovo neobsahuje samo o sobě žádnou jasnou informaci o polaritě obsahuje (obecnou) morfologickou charakteristiku ( x tvarová homonymie) neobsahuje informace o hloubce uzlu ve stromě 12

Je to bohudíky za námi. 13

14

Další důležité rysy důležitá informace o pozici slova ve větě (je větným členem?) dosah částic určující vliv predikátu druh klauze síla spojky či předložky 15

Polarita na úrovni věty kontext snazší orientace +/- stejně jako v textu rozhodující počet +/- výrazů, jejich větněčlenská platnost a dosah - počet polárních výrazů v hlavní větě - celkový počet silných polárních výrazů - počet znegovaných pozitivních výrazů (Př. Ne hezky, nemám rád atp.) 16

Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání Závěr 17

Možnosti výzkumu vytvořit subjectivity lexicon pro češtinu set frekventovaných polárních výrazů s přisouzenou platností + / - implementace hodnot těchto výrazů do vět v korpusu trénovací data porovnání úspěšnosti (s jakou přesností odpovídá výsledná polarita na označkovaných datech) 18

Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání Závěr 19

Větná polarita a vyhledávání (QA) Cílem je najít v korpusu dat věty, které mají nějakou polaritu vzhledem k danému dotazu Zadání: Vyhledat pozitivní názory spojené se jménem Alexandra Sticha. Výsledek: K největším zásluhám všestranného bohemisty Alexandra Sticha patří to, že na počátku 90. let minulého století inicioval a zaštítil studium jazyka a literatury doby baroka. 20

Předpoklady úspěšného vyhledávání správně označkované polární výrazy shoda vyhledávaného jména/pojmu a polárního výrazu blízkost vyhledávaného jména/pojmu a polárního výrazu 21

Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání Závěr 22

Závěr Větná polarita: jednotlivá slova sama o sobě neposkytují relevantní informaci předpoklad relevantních výsledků: větší množství slov + informace o jejich polaritě + další charakteristika Větná polarita vztažená k tématu: velký podíl jazykových rysů důležitá informace o vzdálenosti daných výrazů 23

Souhrn faktorů ovlivňujících větnou polaritu Morfologické vlastnosti Hloubka polárního výrazu ve stromě Polarita predikátu Druh klauze Síla polárního výrazu Dosah negace (ne zrovna milý) Dosah intenzifikátoru (velmi milý) Vliv modality Modifikace pomocí pozitivního nebo negativního polárního výrazu (hrozně milý, pěkný hlupák) 24

Ideální věta Polární výraz: Morfologie: sloveso Větný člen: predikát Hloubka ve stromě: nízká Typ věty: hlavní + modifikace polárním výrazem se stejnou platností - pozitivní pozitivním a naopak strašně zlý 25

Literatura: Annotating Expressions of Opinions and Emotions in Language. J. Wiebe, T. Wilson, C. Cardie. Language Resources and Evaluation, 2003. Making Large-Scale SVM Learning Practical. T. Joachims. In B. Schölkopf, C Burges, and A. Smola eds. Advances in Kernel Methods- Support Vector Learning. MIT Press, 1997. Examining the Role of Linguistic Knowledge Sources in the Identification and Classification of Reviews. V. Ng, S. Dasgupta, and S. M. Niaz Arifin. Proceedings of the COLING/ACL, 2006. 26

Děkuji za pozornost 27