Identifikace poruchy osobnosti z psaného textu



Podobné dokumenty
ANALYTICKÉ PROGRAMOVÁNÍ

Unstructured data pre-processing using Snowball language

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

VÝVOJ NOVÉHO REGULAČNÍHO ALGORITMU KOTLE VERNER S PODPOROU PROGRAMU MATLAB

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

Curriculum Vitae. Jméno disertace: Algebraic Properties of Fuzzy Logics Školitel: prof. Ing. Mirko Navara, DrSc.

Web of Science. Bibliotheca Academica

ELEARNING NA UJEP PŘEDSTAVY A SKUTEČNOST

Dokumentační služba projektu Medigrid : dokumentování sémantiky lékařských dat

HODNOCENÍ VZORKŮ BRAM V METALOGRAFICKÉ LABORATOŘI A NOVÉ MOŽNOSTI ZAVÁDĚNÉ V RÁMCI ŘEŠENÍ GRANTOVÉHO PROJEKTU

Ztracená 2553/3, Opava, , Czech Republic Born: Phone:

Automatická oprava textu v různých jazycích

Údaje k předkládaným výsledkům pro kontrolu do RIV

Závěrečná zpráva o řešení výzkumného záměru

Informace jako antropologický fenomén

Klasifikační stromy. Metriku, pro níž je E( C, použijeme jako kořen.

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

2 Rekonstrukce ze dvou kalibrovaných pohledů

Pojmové mapy ve výuce fyziky

Použití softwaru VisVAP pro vývoj nových systémů řízení dopravy aplikace fuzzy algoritmů pro LŘD a SSZ.

CFD simulace teplotně-hydraulické charakteristiky na modelu palivové tyči v oblasti distanční mřížky

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Genetické programování 3. část

IT4Innovations Centre of Excellence

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Dobývání znalostí z textů text mining

Marta Vomlelová

SPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR

PROJEKT SEN-NET (SENIORS IN NETWORK)

Sociální integrace osob se získaným zrakovým postižením. Martina Zdráhalová

Automatické vyhledávání informace a znalosti v elektronických textových datech

Vybrané aktuální projekty Centra ZPJ. Kolokace a dokumenty. Metody. Kontext:,,One-click dictionary post-editing lexicography

CZ.1.07/1.5.00/

Aplikace obrazové fúze pro hledání vad

Životopis. Osobní údaje. Vzdělání. Zaměstnání. Pedagogická činnost na VŠE v Praze. Vysoká škola ekonomická v Praze

Šeptáková, Šarmanová

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. Jak citovat. Zpracovala: Mgr. Ilona Trtíková ÚSTŘEDNÍ KNIHOVNA ČVUT. - Prosinec

Vytváření a ověřování citací pro kvalifikační práce. PhDr. Eva Valdmanová Národní lékařská knihovna

Anténní řada 2x2 pro přenos digitálního TV signálu v pásmu 4,4 až 5 GHz

Profil žádaného knihovníka/knihovnice: co očekávají knihovny od nových zaměstnanců?

Požární odolnost ocelobetonových stropů

Závěrečná zpráva projektu Experimentální výpočetní grid pro numerickou lineární algebru

Koncepce vzdělávání v energetice

Řízení lidských zdrojů

MODELOVÁNÍ PLANÁRNÍCH ANTÉN POMOCÍ UMĚLÝCH NEURONOVÝCH SÍTÍ

SíťIT: Portál na podporu sociální sítě informatiků v ČR

PŘEHLED PSYCHOLOGICKÉHO PORADENSTVÍ NA VŠ V ČR. 1. Obecný přehled poskytování psychologického poradenství na VŠ v ČR

POKYNY PRO AUTORY. Kvasný průmysl publikuje výsledky základního a aplikovaného výzkumu (recenzované

Návrhy spolupráce se základními školami spádových obcí na podporu Valašskoklobouckého středního školství

BIM & 3D katastr. Karel Janečka. Katedra geomatiky, Fakulta aplikovaných věd Západočeská univerzita v Plzni, Česká republika

Česká zemědělská univerzita v Praze. Provozně ekonomická fakulta. Katedra informačních technologií

RESTART Hodnocení využívání ICT v pedagogické činnosti

Operativní řízení odtoku vody z nádrže za průchodu povodně Starý, M. VUT FAST Brno, Ústav vodního hospodářství krajiny

TELEGYNEKOLOGIE TELEGYNECOLOGY

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Learning Technologies

Web based dynamic modeling by means of PHP and JavaScript part II

Návrh na zahájení habilitačního řízení Mgr. Miloš Kudělka, Ph.D. v oboru Informatika na FEI VŠB-TU Ostrava

Extrakce a selekce příznaků

Přehled modelů reputace a důvěry na webu

RACIONALIZACE ERGONOMICKÝCH PODMÍNEK S OHLEDEM NA POHLAVÍ PRACOVNÍKA

Každý prostředek se dá efektivně využít, je-li správně uchopen a použit David Nocar

Problematika disertační práce a současný stav řešení. Ing. Aneta Zatočilová

Disertační práce zpracovávané na Fakultě ekonomicko-správní

SHLUKOVÁNÍ A TEXTOVÉ DOKUMENTY

ProInflow : Časopis pro informační vědy Speciál 2011 V RÁMCI PROJEKTU EBOOKS ON DEMAND

KLASIFIKÁTOR IZOLOVANÝCH SLOV NA BÁZI UMĚLÉ NEURONOVÉ SÍTĚ

Analýza a hodnocení abstraktů odborných časopisů

Aplikace algoritmů umělé inteligence pro data mining v prostředí realitního trhu

(pracovní materiál do výuky, ot. 4, bez jazykové korektury, sestavila K. Vlčková)

CFA Society Forecasting Dinner 2016 Survey

Kulatý stůl k přípravě 9. Rámcového programu EU pro výzkum, vývoj a inovace HORIZON EUROPE ( )

Strojové učení se zaměřením na vliv vstupních dat

MODELOVÁNÍ BONITY OBCÍ POMOCÍ KOHONENOVÝCH SAMOORGANIZUJÍCÍCH SE MAP A LVQ NEURONOVÝCH SÍTÍ

Modelové řešení revitalizace průmyslových regionů a území po těžbě uhlí na příkladu Podkrušnohoří

ANALÝZA REALITNÍHO TRHU V ČESKÉ REPUBLICE ANALYSIS OF THE REAL ESTATE MARKET IN THE CZECH REPUBLIC

Lineární diskriminační funkce. Perceptronový algoritmus.

WEBOVÉ ŘÍZENÍ MECHANICKÉHO SYSTÉMU SVĚTĚLNÝM PAPRSKEM Web Control of Mechanical System by Light Ray

Sensitivity analysis application possibilities in company valuation by two-phase discounted cash flows method

BRDSM: Komplexní systém dynamického řízení kvality plynule odlévané oceli

Newsletter October 2011

Otázky a odpovědi týkající se Evropské webové databáze hlášení nežádoucích účinků léčivých přípravků

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí

TREND KVADRATICKÉHO ADAPTIVNÍHO MODELU PRO AUTOMATICKÉ ŘÍZENÍ

DETEKCE ANOMÁLNÍHO CHOVÁNÍ UŽIVATELŮ KATASTRÁLNÍCH MAPOVÝCH SLUŽEB

Hledání nápadů v textových zdrojích

Petra Pokorná, Petr Ptáček

Prof. Ing. Oldřich Kratochvíl, MBA, PhD., CSc., Dr.h.c.

Seznámení s IEEE802.1 a IEEE a IEEE802.3

Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích

MATLAB: Vývoj a nasazení finančních aplikací

Markovovy modely v Bioinformatice

Trendy a nové technologie v kyber-bezpečnosti

2. KNIHY A TISK. Tabulka 1 Vymezení oblasti knih a tisku podle klasifikace NACE

Seminář GPS VUT V Brně, 30. května 2007

HODNOCENÍ INOVAČNÍCH VÝSTUPŮ NA REGIONÁLNÍ ÚROVNI

TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH

APLIKACE UMĚLÉ INTELIGENCE V EKONOMICKÉ OBLASTI THE APPLICATION OF ARTIFICIAL INTELLIGENCE IN THE FIELD OF ECONOMICS

Transkript:

Identifikace poruchy osobnosti z psaného textu Adam Ondrejka, Petr Šaloun, and Radka Cepláková VŠB-Technická univerzita Ostrava, 17. listopadu 15, 708 33 Ostrava, Česká republika adam.ondrejka@gmail.com petr.saloun@vsb.cz r.ceplakova@gmail.com http://www.vsb.cz Abstrakt Popisujeme současné poznatky při rozpoznávání možných poruch osobností pomocí tzv. sebe esejí pacienta. Představujeme přístup založený na analýze textu pomocí technik NLP a následné kategorizace do jedné ze tří základních skupin poruch osobnosti strachu, prokrastinace a netolerance nejistoty. Využíváme support vector machine a první experimenty, založeny na reálných datech konzultovaných se specialisty, ukazují slibné výsledky. Poruchy osobnosti jsou díky stresovému a časově vypjatému způsobu života dnes docela časté. V případě omezení či komplikací v životě trpícího jedince je včasná identifikace a řešení problému více než žádoucí. Někteří lidé ale návštěvu specialisty považují za osobní selhání a díky studu problém neřeší, i když o něm sami tuší. Psychologové a psychiatři na druhou stranu dnes používají několik metod k rozpoznání poruch osobnosti, at již pozorováním při rozhovoru, dotazníkem či z textového popisu vlastní osoby. Keywords: zpracování přirozeného jazyka, dolování dat, mentální porucha 1 Úvod a stav poznání Nejrozšířenější a nejpřesnější metodou dnešní doby k rozpoznání poruch osobnosti je samozřejmě osobní vyšetření lékařským specialistou. Dalším možným, ale méně přesným, způsobem jak identifikovat poruchu osobnosti může být nepřímo z odpovědí psychologických dotazníků, případně analýzou specialisty psaného textu pacientem. Soustředíme se právě na poslední nepřímý způsob identifikace poruch, a sice strojově analyzujeme a odhadujeme poruchy osobnosti z tzv. sebeesejí pacienta. Sebe-eseje jsou texty psané v strojově čitelné podobě přímo pacientem, ve kterých popisuje své nálady, pocity a celkově jeho osobu a osobnost. V této práci rozlišujeme tři základní skupiny poruch osobností: strach a úzkost, prokrastinace a tolerance nejistoty. Nepřímo navazujeme na náš předchozí výzkum [7] a [6]. V sebe-esejích zjišt ujeme polaritu textů, která vychází z myšlenek analýzy nálad, neporovnáváme tedy pouze výskyty a četnost slov v jednotlivých textech. Texty kategorizujeme do skupin poruch osobností podle vybraných metod strojového učení pomocí extrakce klíčových vlastnosti z textu a porovnávání s texty referenčními. 71

ISBN 978-80-553-2271-1 Jedno možných řešení našeho problému je použití metod pro klasifikace a kategorizace textů, na které již byla vydáno spousta publikací. Žádná se přímo nezabývá hledáním poruch osobnosti či podobných nemocí z textu. Quiang v [4] extrahuje vlastnosti z dokumentů pomocí tzv. Categorical Term Frequency Probability, která definuje charakteristiky hlavních termů dokumentu pro každou kategorii. Použitím klasifikátoru Support Vector Machine ukázal, že jeho metoda dosahuje lepší FI-Metriky. Qing Li v [3] představuje další možný přístup ke klasifikaci textu pomocí zpětně propagovaných neuronových sítí, které dle provedených experimentů, řeší problém pomalosti v porovnání s obyčejnými neuronovými sítěmi. 2 Indukce poruchy osobnosti Před klasifikací samotných sebe-esejí je potřeba podniknout dva kroky. Za prvé musíme zjistit polaritu textu, což je v podstatě identické sanalýzou nálad, jen za použití jiného slovníku a pravidel. A v druhém kroku získat vlastnosti pro následnou klasifikaci. Pro upřesnění charakteru sebe-eseje, tedy zda analyzovaný text je negativní, což by mělo, na základě konzultacemi se specialisty, reflektovat s poruchou osobnosti, jsme se rozhodli zjišt ovat polaritu - sentiment textu. Při zjišt ování polarity sebe-eseje navazujeme a mírně modifikujeme náš předchozí výzkum [6]. Protože v českém jazyce (a mnoha jiných slovanských jazycích) při skladbě vět narážíme na problémy v podobě dvojích negacích a dalších, které následnou analýzu komplikují, využíváme slovníkového přístupu v kombinaci s analýzou vět. Pro metodu popsanou v práci používáme jen mírně upravený slovník pro účely rozeznání poruchy osobností. Pro zmíněné hlavní kategorie poruch osobností jsme ve spolupráci se specialisty vytvořili základní modely ty se skládají z klíčových slov, frází a referenčního textu. Klíčová slova jsou slova nebo slovní spojení, která silně ukazují na některou z možných poruch osobnosti. Jsou negativního charakteru a často ve významu, který shazuje vlastní já daného člověka. Mohou to být například slova osamělost, ztracenost nebo uzavřenost. Fráze jsou obecnějšího charakteru. Nemají takový silný význam jako klíčová slova, ale upřesňují, zda osoba má nebo nemá psychologické problémy, např. nechte mě na pokoji, život za nic nestojí, apod. Poslední, referenční texty, jsou vytvořené za účelem znázornění, jak by daná sebe-esej měla vypadat. Model vlastností pro klasifikátory vytváříme na základě podobnosti mezi skupinami dle Diceova koeficientu[5]. Znázorněn je v tabulce 1. Vlastnosti 1 3 jsou hodnoty podobnosti mezi porovnávanou sebe-esejí a klíčovými slovy každého referenčního modelu. Vlastnosti 4 6 opět podobnosti frází a 7 9 podobnosti referenčních textů mezi sebe-esejí a referenčními modely. Poslední 10. vlastnost určuje polaritu analyzované sebe-eseje podle postupu zmíněného výše. K nalezení těchto vlastností jsme použili knihovnu NLTK pro programovací jazyk Python a český parser textu Morphodita [8]. Bližší popis je v práci [6]. 72

Tabulka 1. Model vlastností použitých pro klasifikaci # vlastnosti Popis 1 3 Podobnost klíčových slov 4 6 Podobnost frází 7 9 Podobnost referenčních textů 10 Polarita 3 Experiment V ranné fázi výzkumu jsme pro testovací účely jsme ručně roztřídili 90 příspěvků ze serveru ulekare.cz 1, z poradny, kde lidé popisují své problémy. První skupina 60 příspěvků byly texty, které specialisté označili za příspěvky s možnou poruchou osobnosti. Druhá skupina o zbylých 30 příspěvcích obsahovala sebe-eseje, které byly pozitivního charakteru, bez poruchy osobnosti. Trénovací množina obsahovala 30 příspěvků získaných z poradny a dalších 10 obdržených od specialisty. Zjišt ovali jsme, jestli navržený postup dokáže správně rozlišit sebe-esej zdravého a nemocného člověka a v případě sebe-eseje nemocného člověka odhadnout poruchu osobnosti ze správné kategorie. Jako klasifikátory jsme vybrali Support-Vector machine [2], K-Nearest Neighbors [10], Naive Bayes [9] a Decision trees [1]. Výsledky jsou v tabulce 2. Tabulka 2. Ověření klasifikace oruchy osobnosti ze sebe-esejí pacienta. Klasifikátor Správně zdravé Správně nemocné F-Skóre SVN 21/30 34/60 72.4 % KNN 20/30 31/60 67.7 % NB 20/30 32/60 69.1 % DT 17/30 27/60 54.8 % První sloupec popisuje použitý klasifikátor. Druhý sloupec vyjadřuje počet správně rozpoznaných sebe-esejí pro daný klasifikátor pro případ zdravých sebeesejí. Třetí sloupec určuje počet správně rozpoznaných nemocných sebe-esejí včetně správného zařazení do kategorie poruchy osobnosti. Poslední sloupec vyjadřuje úspěšnost klasifikátoru dle F-Skóre. Jak je z tabulky patrné, nejlepšího výsledku dosáhl klasifikátor Multi-Class Support Vector machine s f- skóre 72,4 %. Nejhůře naopak dopadl Decision Tree s pouhými 54,8 %. 4 Závěr Hlavním cílem této práce bylo vytvořit metodu k identifikaci poruchy osobnosti z psaných sebe-esejí, tedy textů popisující náladu, myšlenky pacienta. Pro prvotní 1 http://www.ulekare.cz/poradna-lekare 73

ISBN 978-80-553-2271-1 výzkum jsme zvolili cestu za použití známých klasifikátorů textů. Pro extrakci vlastností textů jsme zvolili podobnost mezi referenčními modely a olaritu - sentiment textu. Samotná identifikace pak probíhá za pomoci klasifikátorů: Multi- Class Support Vector Machine, K-Nearest Neighbors, Naive Bayer a Decision Tree. Metoda byla otestována na 90-ti reálných příspěvcích z online poradny. Úspěšnost rozpoznání poruchy osobnosti se pohybovala mezi 54.8-72.4 % dle použitého klasifikátoru, nejlepších výsledků dosahoval Multi-Class Support Vector Machine. Další výzkum bude zaměřen především na navýšení trénovací a testovací množiny sebe-esejí, na zlepšení úspěšnosti rozpoznávání poruch osobnost a sofistikovanější analýzu nálad pro česky psané texty. Acknowledgment Výzkum byl podporován projekty Technologické agentury České republiky TAČR-TF01000091, a grantem SGS č. SP2015/142, VŠB-Techncké univerzity Ostrava. Reference 1. A. Abdelhalim and I. Traore. A new method for learning decision trees from rules. In Machine Learning and Applications, 2009. ICMLA 09. International Conference on, pages 693 698, Dec 2009. 2. Corinna Cortes and Vladimir Vapnik. Support-vector networks. Mach. Learn., 20(3):273 297, September 1995. 3. Cheng Hua Li, Wei Song, and Soon Cheol Park. An automatically constructed thesaurus for neural network based document categorization. Expert Syst. Appl., 36(8):10969 10975, October 2009. 4. Qiang Li, Liang He, and Xin Lin. Categorical term frequency probability based feature selection for document categorization. In Soft Computing and Pattern Recognition (SoCPaR), 2013 International Conference of, pages 66 71, Dec 2013. 5. N. Oco, L. Romeritch Syliongka, R.E. Roxas, and J. Ilao. Dice s coefficient on trigram profiles as metric for language similarity. In Oriental COCOSDA held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE), 2013 International Conference, pages 1 4, Nov 2013. 6. P. Saloun, M. Hruzik, and I. Zelinka. Sentiment analysis - e-bussines and e-learning common issue. In Emerging elearning Technologies and Applications (ICETA), 2013 IEEE 11th International Conference on, pages 339 343, Oct 2013. 7. Petr Saloun, Adam Ondrejka, and Ivan Zelinka. Similarity of authors profiles and its usage for reviewers recommendation. In 9th International Workshop on Semantic and Social Media Adaptation and Personalization, SMAP 2014, Corfu, Greece, November 6-7, 2014, pages 3 8, 2014. 8. Jana Straková, Milan Straka, and Jan Hajič. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 13 18, Baltimore, Maryland, June 2014. Association for Computational Linguistics. 74

9. Harry Zhang. The optimality of naive bayes. In Valerie Barr and Zdravko Markov, editors, Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference (FLAIRS 2004). AAAI Press, 2004. 10. Juan Zhang, Yi Niu, and Huabei Nie. Web document classification based on fuzzy k-nn algorithm. In Computational Intelligence and Security, 2009. CIS 09. International Conference on, volume 1, pages 193 196, Dec 2009. 75