Forenzní lingvistika. jazykověda ve službách vyšetřování

Podobné dokumenty
Problematika hluchoty: aktuální otázky 2. hodina ( ) FORENZNÍ LINGVISTIKA JAZYKOVĚDA VE SLUŽBÁCH VYŠETŘOVÁNÍ

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Automatická detekce emocí v textu

Automatická detekce emocí v textu

Úvod do kvantitativní lingvistiky. Radek Čech

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

SEXUÁLNÍ NÁSILÍ OČIMA ČESKÉ VEŘEJNOSTI

Člověk a společnost. 10. Psychologie. Psychologie. Vytvořil: PhDr. Andrea Kousalová. DUM číslo: 10. Psychologie.

obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy

Výstupy diagnostického šetření výskytu násilí na pracovištích ve zdravotnictví a sociálních službách

Specializované korpusy mluveného jazyka - jejich tvorba a využití

Seznam použitých zkratek Předmluva ke čtvrtému vydání DÍL PRVNÍ: OBECNÁ ČÁST... 19

VZDĚLÁVÁNÍ DOSPĚLÝCH 2016

Výsledky výzkumu na téma vnímání kyberkriminality prováděného u žáků základních škol ve středočeském kraji. Autor: Ing. Mgr.

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

ANALÝZA OBRAZU V HODNOCENÍ SYMETRIE OBLIČEJE Patrik Fiala, Pavel Kasal, Lubomír Štěpánek, Jan Měšťák

Vzdělávání v oblasti forenzní genetiky reg. č. CZ.1.07/2.3.00/

Přehled výzkumných metod

Český jazyk a literatura

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

VÝZKUM TRHU, MÉDIÍ A VEŘEJNÉHO MÍNĚNÍ, VÝVOJ SOFTWARE MEDIAN,

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

aktivita A0705 Metodická a faktografická příprava řešení regionálních disparit ve fyzické dostupnosti bydlení v ČR

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

KDYŽ ZAČÍNÁME MLUVIT... Lingvistický pohled na rané projevy česky hovořícího dítěte. Lucie Saicová Římalová

2 Vymezení normy Shrnutí... 27

S = C S 4K 4 C_ C UPS P ; S 1 = ; 1 = 2F

Zkoumání lidské psychiky, základní metody a postupy. PaedDr. Mgr. Hana Čechová

Webový server Veřejné mínění online si klade za prostřednictvím internetového rozhraní.

Rizika sociálních sítí aneb Jak se chovat na internetu (Jak sociální sítě ubližují (nejen) dětem aneb nebezpečí na internetu)

stylometrický software quita miroslav kubát ff ou ostrava js ostrava

Akustické aplikace pro IB

Odhalování a vyšetřování kybernetické kriminality

AKTUALIZACE TÉMAT RIGORÓZNÍCH PRACÍ (AKADEMICKÝ ROK 2017/2018)

ve strojovém překladu

Výsledky dotazníkového šetření Bezpečný Kolín 2016

Subjektivní přístup obyvatel Ostravy ke zdraví v závislosti na životním stylu, socioekonomickém statusu a vzdělání.

Pivo, víno a lihoviny v české společnosti v roce 2012

Předmět Kriminalistika I. Ing. Jaroslav Kothánek, Ph.D.

Projekt Násilí na pracovištích v oblasti zdravotnictví a sociální péče Pracovní násilí a jeho podoby

PŘECHOD ABSOLVENTŮ SŠ NA TRH PRÁCE

Základní rámec, DEFINICE, cíle, principy, oblasti působení. Výběrový kurz Úvod do zahradní terapie, , VOŠ Jabok Eliška Hudcová

KRIMINALISTICKÁ GENETIKA V ČESKÉ REPUBLICE. Praxe a legislativa

Varianty výzkumu Kroky výzkumu Výběrový soubor

Aplikace DNA profilování na adna

PRAKTICKÉ VYUŽITÍ METODY KONSPEKTU

Úvod do teorií a metod sociální práce. Co je sociální práce a proč potřebuje teoretická východiska? Navrátil, Kříčková

RVP ŠVP UČIVO - rozlišuje a příklady v textu dokládá nejdůležitější způsoby obohacování slovní zásoby a zásady tvoření českých slov

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

Psychosémantické metody

ZDRAVÁ ŠKOLA POHYBU Jan Outlý 2018

Protetické v- v pražské mluvě. seminář Příprava a realizace interdisciplinárního výzkumu

Vlastnosti sexuálního chování uživatelů sociální sítí Facebook

Výzkum znalosti ROP Jihovýchod v Jihomoravském kraji a v kraji Vysočina

Bakalářské kombinované studium Program: Veřejná správa. Obor: Teorie a praxe trestního a správního procesu. Otázky k ústní závěrečné zkoušce

Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová

Předmluva ke třetímu vydání Předmluva k českému vydání Co je to marketingový výzkum? Pátrání po marketingových rozhodnutích...

SOCIÁLNÍ PEDAGOGIKA A PORADENSTVÍ: OKRUHY OTÁZEK Státní závěrečná zkouška bakalářská

Současný stav likvidace dat v organizacích

Měření efektivity informačního vzdělávání. Mgr. Gabriela Šimková KISK, Filozofická fakulta MU

Ochutnávka strojového učení

Online setkání , h

Obsah Předmluva Rekapitulace základních pojmů logiky a výrokové logiky Uvedení do predikátové logiky...17

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky Autor: Mgr. Martin Fryauf Název materiálu: Kriminalistická

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Využití shlukové analýzy při vytváření typologie studentů

Výskyt a formy mobbingu v českém pracovním prostředí

Metodologie sociologického výzkumu Jiří HODNÝ, Ph.D.

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

ZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

Pedagogicko psychologická diagnostika. PhDr. Denisa Denglerová, Ph. D.

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

Téma číslo 5 Základy zkoumání v pedagogice II (metody) Pavel Doulík, Úvod do pedagogiky

UŽIVATELÉ SOCIÁLNÍCH SÍTÍ V ĆR

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA

NLP & strojové učení

Pohled pedagoga běžné základní školy na podporu komunikativních kompetencí žáků s narušenou komunikační schopností

Záznam o zpracování osobních údajů

PROBLEMATIKA NÁSILÍ NA ŽENÁCH OPTIKOU ČESKÉ POPULACE

Komunikační dovednosti veterinárního lékaře. MVDr. Jana Jozefová, Ph.D.

Matematická logika. Lekce 1: Motivace a seznámení s klasickou výrokovou logikou. Petr Cintula. Ústav informatiky Akademie věd České republiky

Doktorandské studium - Západočeká univerzita v Plzni, Fakulta elektrotechnická, Obor: Elektrotechnika a informatika

Aktuální změny v didaktickém testu z češtiny 2015

Metodologie výzkumu mezigeneračního učení: od otázek k výsledkům

PEDAGOGIKA: OKRUHY OTÁZEK Státní závěrečná zkouška bakalářská

Survey of Health, Ageing and Retirement in Europe. Česká republika 50+:

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

OBSAH. Autoři jednotlivých kapitol O autorech Seznam zkratek Předmluva k druhému vydání Úvod... 19

PŘÍLOHY 1) Dotazník 2) Výsledky faktorové analýzy 3) Studentův t-test na rozdíly mezi faktory u žen a faktory u mužů 4) Ukázka elektronického

STONOŽKA 2014/15 6. ROČNÍKY modul KEA

Jazykové technologie. Karel Oliva Ústav pro jazyk český Akademie věd ČR

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

Zákon o obětech trestných činů

Kriminalistická identifikace Podstata:

Kam s ní? O interpunkční čárce v souvětí Jana Svobodová

Výuka s ICT na SŠ obchodní České Budějovice Šablona III/2:

Český jazyk a literatura

Test pojmových znaků literárního, jiného uměleckého nebo vědeckého díla

Transkript:

Forenzní lingvistika jazykověda ve službách vyšetřování Kateřina Veselovská veselovska@ufal.mff.cuni.cz 13. října 2017, Ústav jazyků a komunikace neslyšících

Kateřina Veselovská senior research associate analýza textových dat v rámci forenzní divize

Forenzní lingvistika = aplikovaná interdisciplinární věda na pomezí lingvistiky, práva a kriminalistiky

Forenzní lingvistika v seznamu znaleckých oborů pod oborem kriminalistika analýza textu, fonoskopická expertiza (kriminalistická akustika) lingvistický materiál jako otisk prstu forenzní psychologie, forenzní medicína nutná znalost právního řádu dané země

Forenzní lingvistika Ale! i srozumitelnost právních textů pokus s právy a povinnostmi vyslýchaného jak oslovovat prostitutky..?

Forenzní lingvistika např. ztotožnění anonymního pachatele: výhružné dopisy udavačské dopisy vyděračské dopisy dokazování trestných činů (analýza emailové komunikace) dopisy na rozloučenou (korpus PL) zasahování do smluv

Forenzní lingvistika historie Německo a Anglosaské země od konce 70. let 20. st. u nás při Kriminalistickém ústavu v Praze od 60. let IAFL, International Association of Forensic Linguistics Malcolm Coulthard Journal of Forensic Linguistics (od 1994)

Forenzní lingvistika vývoj zatím spíše skokový (case studies) chybí jednotná metodologie

Forenzní lingvistika Jan Svartvik (1968) případ Rillington Place č. 10 30. 11. 1949, Notting Hill, Londýn vynucené přiznání Timothy Evanse k vraždě manželky a dcery (odsouzen a pověšen 1950) skutečným vrahem sériový vrah John Christie metoda: porovnání tří výpovědí, osudná pod nátlakem (delší a syntakticky složité věty)

filmový thriller Richarda Fleischera (1971)

Forenzní lingvistika Donald Foster (1995) případ UNABOMBER UNiversity and Airlane BOMBER Theodor Kaczynský, matematik a sériový vrah série bombových útoků z let 1978-1995 charakteristika pachatele na základě manifestu zveřejněného v novinách: nadprůměrně inteligentní útočník z Chicaga, dle typických slovních spojení jej poznal jeho bratr

Stylometrie = určení autorství (uměleckého) textu, tj. jazyková analýza a interpretace textu, na jejímž základě je možné určit některé charakteristické znaky osoby, která text vytvořila

Stylometrie x grafologie, x forenzní fonetika kvantitativní přístup, větší vzorky dat např. rukopisy Mosteller and Wallace (1963) eseje k Americké ústavě, Hamilton vs. Madison

Stylometrie statistika: např. užití obsahových a funkčních slov

Stylometrie statistika: např. užití obsahových a funkčních slov

Určované charakteristiky pohlaví pachatele stáří sociální a místní původ (slang, neologismy) vzdělání pravděpodobný stupeň agresivity nebo poddajnost vztah k autoritám významnost či nevýznamnost některých osob či věcí smyslový handicap (špatný zrak, koktavost) psychický handicap atd.

Metody větná analýza nadprůměrně dlouhé věty atd. slovnědruhová analýza nadužívání slov atd. posouzení celkového stylizačního procesu srovnání s jinými texty vytvořenými stejnou osobou obsahová analýza + postojová analýza

Metody větná analýza nadprůměrně dlouhé věty atd. slovnědruhová analýza nadužívání slov atd. posouzení celkového stylizačního procesu srovnání s jinými texty vytvořenými stejnou osobou obsahová analýza + postojová analýza

Metody postojová analýza = extrakce názorů a postojů z textu a řeči

Postojová analýza ve forenzní lingvistice výhružné dopisy / emaily hanobení rasy a národa / pomluvy v internetových diskusích terorismus automatická administrace internetových diskusí prevence sebevražd kyberšikana

Postojová analýza ve forenzní lingvistice => př. nástroj vyhledávající potenciální sebevražedné statusy na Facebooku

Postojová analýza ve forenzní lingvistice Kyberšikana: detekce potenciálně negativních výroků na základě postojové analýzy (vulgarismy atd.) + klíčová slova Dinakar et al. 2011 trénovací data z YouTube, - binární klasifikátory - v prototypických případech úspěšnost cca 72% (NB a SVM)

Postojová analýza ve forenzní lingvistice Kyberšikana: Dinakar et al. 2011, "Modeling the detection of Textual Cyberbullying." trénovací data z YouTube - 4500 označkovaných komentářů - binární klasifikátory - v prototypických případech úspěšnost cca 72% (NB a SVM)

Postojová analýza ve forenzní lingvistice

Postojová analýza ve forenzní lingvistice detekce trollingu = zasílání provokativních, hanlivých nebo irelevantních příspěvků k citlivým tématům - smyslem je vyprovokovat ostatní uživatele k emotivní odezvě detekce hate speech = verbální projevování nenávisti

Postojová analýza ve forenzní lingvistice = sběr velkého množství dat pro postojovou analýzu a další trénování klasifikátorů

Ztotožňování např. příspěvky z Facebooku vs. nesnášenlivé příspěvky v internetových diskusích

Ztotožňování např. příspěvky z Facebooku vs. nesnášenlivé příspěvky v internetových diskusích

Ztotožňování např. příspěvky z Facebooku vs. nesnášenlivé příspěvky v internetových diskusích

Ztotožňování např. příspěvky z Facebooku vs. nesnášenlivé příspěvky v internetových diskusích

Ztotožňování např. příspěvky z Facebooku vs. nesnášenlivé příspěvky v internetových diskusích

Postojová analýza ve forenzní lingvistice povaha a frekvence hodnotících výrazů (zejména těch s negativní polaritou) má zásadní vliv na odhalení nesnášenlivého textu a při existenci i krátkých referenčních pasáží (cca 500 slov) také jeho autora = nejúčinnější pro forenzní lingvistiku: postojová analýza + statistická analýza funkčních slov + objektivní aspekty (IP adresa atd.)

Detekce vulgarismů motivace automatická extrakce vulgarismů v rámci postojové analýzy silně emocionální indikátory negativní polarity hodnocení v textu = ztotožňování hanlivých příspěvků

Vulgarismy motivace

Vulgarismy motivace rozvoj webu 2.0 = rozvoj vulgarismů omezování pravidel u diskusí pod články (elektronická registrace, papírová registrace, nahrazení diskuse facebookovými thready) blokace diskutujících

Vulgarismy motivace nové strategie současné nástroje pro lemmatizaci selhávají Barman je @#%$!! > barman být??????

Vulgarismy teoretická východiska klení umožňuje expresivně vyjádřit emoční zaujetí expresivity je dosahováno porušováním společenských tabu

Vulgarismy teoretická východiska Tabu střední a východní Evropy: a) sexuální chování b) vylučování a vylučovací orgány c) eschatologie (posmrtný život) d) náboženské hodnoty* * krucifix, hergot atp. nahrazeno výrazy z análně-vylučovací oblasti

Vulgarismy teoretická východiska preference typů vulgarismů dána i demograficky Morava genitální, Čechy anální Franče 2009 (dotazníkové šetření) lokace lze vysledovat v nové podobě diskusí

Vulgarismy teoretická východiska

Vulgarismy teoretická východiska

Důležitost vulgarismů pro postojovou analýzu sémantika = co? formální prostředky = jak?

Vulgarismy sémantika desambiguace kolokační analýza Dostaneš hovno. = Nedostaneš nic. (neutrální) Stojí to za hovno. = Za nic to nestojí. (negativní) Ale hovno. = Mýlíš se. (negace, nesouhlas) Mele hovna. = Říká nesmysly. (nesouhlas)

Vulgarismy sémantika desambiguace kolokační analýza Byl na sračky. = Byl opilý. (neutrální) Ten film je sračka. = Ten film je špatný. (negativní)

Vulgarismy sémantika desambiguace kolokační analýza Je tu tma jak v prdeli. (neutrální) S Jardou je vždycky prdel. (pozitivní?) A je to v prdeli. (negativní)

Vulgarismy sémantika desambiguace kolokační analýza Svědila ji kunda. (neutrální) Na baru je pěkná kunda. (pozitivní) Topolánek je pěkná kunda. (negativní)

Vulgarismy formální prostředky ideálně čistý text

Vulgarismy formální prostředky nepísmenné znaky

Vulgarismy formální prostředky nepísmenné znaky

Vulgarismy formální prostředky záměna znaků

Vulgarismy formální prostředky jazykové hříčky

Vulgarismy formální prostředky všeobecná znalost

zkratky Vulgarismy formální prostředky wtf, omg, rtfm, dmnce, twl

zkratky Vulgarismy formální prostředky

Vulgarismy možná řešení standartní spell-checking porovnávání řetězců se slovníkem pravidlový systém netypické kombinace znaků (bigramy, trigramy) Levenshteinova distance

Vulgarismy možná řešení stop words list (kua, wtf, rofl ) devypatlátor

Vypatlátor/devypatlátor www.vypatlator.cz

Správná detekce vulgarismů nemusí stačit

Forenzní psycholingvistika Psycholingvistické profilování případu série výhrůžných anonymních dopisů (Veselá a Musilová, 2012) demonstrace a psychologická interpretace zrodu a vývoje přípravy úmyslného násilného aktu forenzní psychoanalýza

Děkuji za pozornost.