Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami reg. č.: CZ.1.07/2.2.00/28.0076
Lingvistické aplikace Kateřina Veselovská veselovska@ufal.mff.cuni.cz po 16:45 18:15 Kateřinská 17, 1.16
Kateřina Veselovská vědecká pracovnice + doktorandka ÚFAL On the Linguistic Structure of Emotional Meaning in Czech produktová manažerka pro textovou analytiku
Co budeme dělat Lingvistické aplikace = kde všude lze lingvistické znalosti uplatnit prakticky
Co budeme dělat lingvistická analýza textu (k čemu a jak) rozpoznávání mluvené řeči (dialogové systémy a spol.) rozpoznávání jazyka (strojový překlad apod.) dolování informací (automatická detekce emocí atd.) neuro a psycholingvistické aplikace
Co budu chtít aktivní účast v semináři esej na vybrané téma heslo v encyklopedii zápočet Co za to
Lingvistické aplikace Aplikovaná lingvistika = VŠECHNO
Aplikovaná lingvistika a) humanitní = didaktika jazyka, teorie překladu, jazyková terapie b) komputační = umělá inteligence, automatizace, strojový překlad
Aplikovaná lingvistika c) narativní věda = vězměte jakákoliv data (zákaznické e-maily, fotbalové statistiky, bankovní účty) a proměňte je v příběh.
Lingvistická analýza textu motivace Samotná data vám řeknou JAK se lidé chovají. Lingvistická analýza vám řekne PROČ.
Příklady zdrojů dat
Lingvistická analýza textu motivace lepší pochopení zákaznických potřeb o čem zákazníci mluví, co si myslí, jak se cítí atp. zefektivnění práce zaměstnanců úspora času, inteligentní plánování obeznámenost s konkurencí co plánují, na čem pracují, o čem se baví ostatní integrace výše zmíněného přizpůsobení procesů
Lingvistická analýza textu jak automatická kategorizace sémantické technologie shluková analýza extrakce entit automatická sumarizace question answering analýza sentimentu strojový překlad atd.
Příprava dat segmentace na věty tokenizace spell-checking lemmatizace Part-of-speech tagging parsing
Automatická kategorizace obsahová analýza přiřazuje k textu některou z předem daných kategorií - na základě četnosti výskytů - na základě strojového učení
Automatická kategorizace Také jsem se o tuhle hypotéku trochu zajímal. Přišla mi až podezřele výhodná a bez skrytých drobných částek placených kolem, které ve finále hypotéku celkem přidraží. Problém je, když něco najdou (nějaký dluh nebo nějakou nesrovnalost). To prý žádost o hypotéku zamítnou, zapíše se to do databáze a je potom složitější získat hypotéku u jiné instituce. kategorie hypotéka
Shluková analýza obsahová analýza rozděluje texty do skupin - na základě podobností - sémantické sítě - hierarchické/nehierarchické klastrování
Shluková analýza
Sumarizace textu summary extraction výběr podstatných vět (heuristika, statistika, latentní sémantická analýza) summary abstraction hlubší sémantická analýza
Sumarizace textu Každý už ví, že dovolenou je nutno kupovat jen u CK pojištěné proti úpadku. Ale kterou CK vybrat. Kam jít koupit svou vysněnou dovolenou. Možností je hodně. I já jsem zpočátku obíhala cestovní kanceláře ve městě. Nyní ale využívám mnohem rychlejší a pohodlnější způsob. Vybírám si dovolenou na internetových stránkách. Jsou zde zájezdy všech velkých cestovních kanceláří a více než sta dalších ck. Do celého světa a za stejnou cenu jako u cestovní kanceláře. Navíc dostávám dárek - pojištění stornopoplatků v hodnotě 600Kč zdarma. To vše rychle a z pohodlí domova - internetem. Každý už ví, že dovolenou je nutno kupovat jen u CK pojištěné proti úpadku. Do celého světa a za stejnou cenu jako u cestovní kanceláře. To vše rychle a z pohodlí domova - internetem.
Analýza sentimentu automatická extrakce názorů a postojů z textu - pozitivní a negativní sentiment - extrakce cílů hodnocení jednoduché hlasování strojové učení pravděpodobnostní modely
Analýza sentimentu [Pochvala pro callcentrum Reiffeisenbank, když jsem si vyřizoval tu KK Style, aspoň že mají vstřícný zaměstnance, což jinde bejvá někdy problém.]+ - hlasování s prostou většinou na základě slovníku
Analýza sentimentu
Sémantické technologie získávání informací ze sémantického webu např. pomocí běžných ontologií extrakce faktů auto = dopravní prostředek, má řidiče = člověka, který má řidičský průkaz Petr jel autem do práce = Petr pravděpodobně má řidičský průkaz.
Extrakce entit určení entit zmíněných v textu - známé i neznámé entity - eventy atp. katalogy variant pravidlová extrakce desambiguace
Extrakce entit Paris Hilton je jednou z největších superstar současného Hollywoodu. Prosadila se před necelými čtyřmi lety v lehce skandální televizní live-show The Simple Life, kterou produkovala stanice Fox. Dále se objevila v televizních sériích Las Vegas nebo Veronica Mars.
Question answering systémy pro automatické odpovědi - na základě korpusu - filtrování false positives aj. Q: Co je to aplikovaná lingvistika? A: Narativní věda.
Lingvistická analýza textu - proč customer churn analysis customer loyalty analysis customer risk analysis customer feedback analysis analýza sociálních sítí
Customer churn analysis Blahopřeju vám k anti-péči o zákazníka. Jsem u vás od roku 2002 a jediné co mi umíte nabídnout jsou běžné a stále dost nevýhodné tarify. Člověk si aspoň uvědomí, jak moc potřebujeme Evropskou unii (jejíž instituce jako jediná z relevantních subjektů tlačí ceny dolů). Po špatných zkušenostech hodlám přejít ke konkurenci. analýza sentimentu, kategorizace
Customer loyalty analysis Produkt této společnosti používám na několika PC už několik let a zatím jsem neobjevil žádné vady. Vzhledem k mé naprosté spokojenosti ani do budoucna nehodlám měnit. analýza sentimentu, kategorizace
Customer risk analysis Detekce lži: kratší věty, krátká slova, více výrazů vyjadřujících pozitivní emoce (+ další dimenze) Detekce spamu, detekce falešných profilů aj. obsahová analýza, analýza sentimentu
Customer feedback analysis Koupit si tento fotoaparát a spoléhat na jméno firmy se mi vůbec nevyplatilo. Např. proti mému stařičkému fotoaparátu je toto naprostý propadák. Průměrný telefon s fotoaparátem udělá stejné, ne-li lepší fotografie. Ani komunikace s centrem podpory nestojí za nic. Výrobek mě zklamal a víckrát už si žádný produkt této firmy bezpochyby nekoupím. cílený marketing
Analýza sociálních sítí personalizovaný marketing, individuální interakce se zákazníkem
Lingvistická analýza textu - shrnutí žijeme ve věku velkých dat, která stále přibývají
Lingvistická analýza textu - shrnutí rozvoj Webu 2.0 => obsah generovaný uživateli => potřeba třídění a vytěžování informací => potřeba kvalifikovaných lingvistů
Příště témata exkurze na ÚFAL dialogové systémy
Příště úkoly popovídejte si s Petrou: popovídejte si s Alex: 800 899 998