Identifikace poruchy osobnosti z psaného textu Adam Ondrejka, Petr Šaloun, and Radka Cepláková VŠB-Technická univerzita Ostrava, 17. listopadu 15, 708 33 Ostrava, Česká republika adam.ondrejka@gmail.com petr.saloun@vsb.cz r.ceplakova@gmail.com http://www.vsb.cz Abstrakt Popisujeme současné poznatky při rozpoznávání možných poruch osobností pomocí tzv. sebe esejí pacienta. Představujeme přístup založený na analýze textu pomocí technik NLP a následné kategorizace do jedné ze tří základních skupin poruch osobnosti strachu, prokrastinace a netolerance nejistoty. Využíváme support vector machine a první experimenty, založeny na reálných datech konzultovaných se specialisty, ukazují slibné výsledky. Poruchy osobnosti jsou díky stresovému a časově vypjatému způsobu života dnes docela časté. V případě omezení či komplikací v životě trpícího jedince je včasná identifikace a řešení problému více než žádoucí. Někteří lidé ale návštěvu specialisty považují za osobní selhání a díky studu problém neřeší, i když o něm sami tuší. Psychologové a psychiatři na druhou stranu dnes používají několik metod k rozpoznání poruch osobnosti, at již pozorováním při rozhovoru, dotazníkem či z textového popisu vlastní osoby. Keywords: zpracování přirozeného jazyka, dolování dat, mentální porucha 1 Úvod a stav poznání Nejrozšířenější a nejpřesnější metodou dnešní doby k rozpoznání poruch osobnosti je samozřejmě osobní vyšetření lékařským specialistou. Dalším možným, ale méně přesným, způsobem jak identifikovat poruchu osobnosti může být nepřímo z odpovědí psychologických dotazníků, případně analýzou specialisty psaného textu pacientem. Soustředíme se právě na poslední nepřímý způsob identifikace poruch, a sice strojově analyzujeme a odhadujeme poruchy osobnosti z tzv. sebeesejí pacienta. Sebe-eseje jsou texty psané v strojově čitelné podobě přímo pacientem, ve kterých popisuje své nálady, pocity a celkově jeho osobu a osobnost. V této práci rozlišujeme tři základní skupiny poruch osobností: strach a úzkost, prokrastinace a tolerance nejistoty. Nepřímo navazujeme na náš předchozí výzkum [7] a [6]. V sebe-esejích zjišt ujeme polaritu textů, která vychází z myšlenek analýzy nálad, neporovnáváme tedy pouze výskyty a četnost slov v jednotlivých textech. Texty kategorizujeme do skupin poruch osobností podle vybraných metod strojového učení pomocí extrakce klíčových vlastnosti z textu a porovnávání s texty referenčními. 71
ISBN 978-80-553-2271-1 Jedno možných řešení našeho problému je použití metod pro klasifikace a kategorizace textů, na které již byla vydáno spousta publikací. Žádná se přímo nezabývá hledáním poruch osobnosti či podobných nemocí z textu. Quiang v [4] extrahuje vlastnosti z dokumentů pomocí tzv. Categorical Term Frequency Probability, která definuje charakteristiky hlavních termů dokumentu pro každou kategorii. Použitím klasifikátoru Support Vector Machine ukázal, že jeho metoda dosahuje lepší FI-Metriky. Qing Li v [3] představuje další možný přístup ke klasifikaci textu pomocí zpětně propagovaných neuronových sítí, které dle provedených experimentů, řeší problém pomalosti v porovnání s obyčejnými neuronovými sítěmi. 2 Indukce poruchy osobnosti Před klasifikací samotných sebe-esejí je potřeba podniknout dva kroky. Za prvé musíme zjistit polaritu textu, což je v podstatě identické sanalýzou nálad, jen za použití jiného slovníku a pravidel. A v druhém kroku získat vlastnosti pro následnou klasifikaci. Pro upřesnění charakteru sebe-eseje, tedy zda analyzovaný text je negativní, což by mělo, na základě konzultacemi se specialisty, reflektovat s poruchou osobnosti, jsme se rozhodli zjišt ovat polaritu - sentiment textu. Při zjišt ování polarity sebe-eseje navazujeme a mírně modifikujeme náš předchozí výzkum [6]. Protože v českém jazyce (a mnoha jiných slovanských jazycích) při skladbě vět narážíme na problémy v podobě dvojích negacích a dalších, které následnou analýzu komplikují, využíváme slovníkového přístupu v kombinaci s analýzou vět. Pro metodu popsanou v práci používáme jen mírně upravený slovník pro účely rozeznání poruchy osobností. Pro zmíněné hlavní kategorie poruch osobností jsme ve spolupráci se specialisty vytvořili základní modely ty se skládají z klíčových slov, frází a referenčního textu. Klíčová slova jsou slova nebo slovní spojení, která silně ukazují na některou z možných poruch osobnosti. Jsou negativního charakteru a často ve významu, který shazuje vlastní já daného člověka. Mohou to být například slova osamělost, ztracenost nebo uzavřenost. Fráze jsou obecnějšího charakteru. Nemají takový silný význam jako klíčová slova, ale upřesňují, zda osoba má nebo nemá psychologické problémy, např. nechte mě na pokoji, život za nic nestojí, apod. Poslední, referenční texty, jsou vytvořené za účelem znázornění, jak by daná sebe-esej měla vypadat. Model vlastností pro klasifikátory vytváříme na základě podobnosti mezi skupinami dle Diceova koeficientu[5]. Znázorněn je v tabulce 1. Vlastnosti 1 3 jsou hodnoty podobnosti mezi porovnávanou sebe-esejí a klíčovými slovy každého referenčního modelu. Vlastnosti 4 6 opět podobnosti frází a 7 9 podobnosti referenčních textů mezi sebe-esejí a referenčními modely. Poslední 10. vlastnost určuje polaritu analyzované sebe-eseje podle postupu zmíněného výše. K nalezení těchto vlastností jsme použili knihovnu NLTK pro programovací jazyk Python a český parser textu Morphodita [8]. Bližší popis je v práci [6]. 72
Tabulka 1. Model vlastností použitých pro klasifikaci # vlastnosti Popis 1 3 Podobnost klíčových slov 4 6 Podobnost frází 7 9 Podobnost referenčních textů 10 Polarita 3 Experiment V ranné fázi výzkumu jsme pro testovací účely jsme ručně roztřídili 90 příspěvků ze serveru ulekare.cz 1, z poradny, kde lidé popisují své problémy. První skupina 60 příspěvků byly texty, které specialisté označili za příspěvky s možnou poruchou osobnosti. Druhá skupina o zbylých 30 příspěvcích obsahovala sebe-eseje, které byly pozitivního charakteru, bez poruchy osobnosti. Trénovací množina obsahovala 30 příspěvků získaných z poradny a dalších 10 obdržených od specialisty. Zjišt ovali jsme, jestli navržený postup dokáže správně rozlišit sebe-esej zdravého a nemocného člověka a v případě sebe-eseje nemocného člověka odhadnout poruchu osobnosti ze správné kategorie. Jako klasifikátory jsme vybrali Support-Vector machine [2], K-Nearest Neighbors [10], Naive Bayes [9] a Decision trees [1]. Výsledky jsou v tabulce 2. Tabulka 2. Ověření klasifikace oruchy osobnosti ze sebe-esejí pacienta. Klasifikátor Správně zdravé Správně nemocné F-Skóre SVN 21/30 34/60 72.4 % KNN 20/30 31/60 67.7 % NB 20/30 32/60 69.1 % DT 17/30 27/60 54.8 % První sloupec popisuje použitý klasifikátor. Druhý sloupec vyjadřuje počet správně rozpoznaných sebe-esejí pro daný klasifikátor pro případ zdravých sebeesejí. Třetí sloupec určuje počet správně rozpoznaných nemocných sebe-esejí včetně správného zařazení do kategorie poruchy osobnosti. Poslední sloupec vyjadřuje úspěšnost klasifikátoru dle F-Skóre. Jak je z tabulky patrné, nejlepšího výsledku dosáhl klasifikátor Multi-Class Support Vector machine s f- skóre 72,4 %. Nejhůře naopak dopadl Decision Tree s pouhými 54,8 %. 4 Závěr Hlavním cílem této práce bylo vytvořit metodu k identifikaci poruchy osobnosti z psaných sebe-esejí, tedy textů popisující náladu, myšlenky pacienta. Pro prvotní 1 http://www.ulekare.cz/poradna-lekare 73
ISBN 978-80-553-2271-1 výzkum jsme zvolili cestu za použití známých klasifikátorů textů. Pro extrakci vlastností textů jsme zvolili podobnost mezi referenčními modely a olaritu - sentiment textu. Samotná identifikace pak probíhá za pomoci klasifikátorů: Multi- Class Support Vector Machine, K-Nearest Neighbors, Naive Bayer a Decision Tree. Metoda byla otestována na 90-ti reálných příspěvcích z online poradny. Úspěšnost rozpoznání poruchy osobnosti se pohybovala mezi 54.8-72.4 % dle použitého klasifikátoru, nejlepších výsledků dosahoval Multi-Class Support Vector Machine. Další výzkum bude zaměřen především na navýšení trénovací a testovací množiny sebe-esejí, na zlepšení úspěšnosti rozpoznávání poruch osobnost a sofistikovanější analýzu nálad pro česky psané texty. Acknowledgment Výzkum byl podporován projekty Technologické agentury České republiky TAČR-TF01000091, a grantem SGS č. SP2015/142, VŠB-Techncké univerzity Ostrava. Reference 1. A. Abdelhalim and I. Traore. A new method for learning decision trees from rules. In Machine Learning and Applications, 2009. ICMLA 09. International Conference on, pages 693 698, Dec 2009. 2. Corinna Cortes and Vladimir Vapnik. Support-vector networks. Mach. Learn., 20(3):273 297, September 1995. 3. Cheng Hua Li, Wei Song, and Soon Cheol Park. An automatically constructed thesaurus for neural network based document categorization. Expert Syst. Appl., 36(8):10969 10975, October 2009. 4. Qiang Li, Liang He, and Xin Lin. Categorical term frequency probability based feature selection for document categorization. In Soft Computing and Pattern Recognition (SoCPaR), 2013 International Conference of, pages 66 71, Dec 2013. 5. N. Oco, L. Romeritch Syliongka, R.E. Roxas, and J. Ilao. Dice s coefficient on trigram profiles as metric for language similarity. In Oriental COCOSDA held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE), 2013 International Conference, pages 1 4, Nov 2013. 6. P. Saloun, M. Hruzik, and I. Zelinka. Sentiment analysis - e-bussines and e-learning common issue. In Emerging elearning Technologies and Applications (ICETA), 2013 IEEE 11th International Conference on, pages 339 343, Oct 2013. 7. Petr Saloun, Adam Ondrejka, and Ivan Zelinka. Similarity of authors profiles and its usage for reviewers recommendation. In 9th International Workshop on Semantic and Social Media Adaptation and Personalization, SMAP 2014, Corfu, Greece, November 6-7, 2014, pages 3 8, 2014. 8. Jana Straková, Milan Straka, and Jan Hajič. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 13 18, Baltimore, Maryland, June 2014. Association for Computational Linguistics. 74
9. Harry Zhang. The optimality of naive bayes. In Valerie Barr and Zdravko Markov, editors, Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference (FLAIRS 2004). AAAI Press, 2004. 10. Juan Zhang, Yi Niu, and Huabei Nie. Web document classification based on fuzzy k-nn algorithm. In Computational Intelligence and Security, 2009. CIS 09. International Conference on, volume 1, pages 193 196, Dec 2009. 75