New Media Inspiration 2013 Martin Petrášek, emerite.cz Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel
Případová studie: Srovnání výsledků Softwarová analýza dat nástrojem pro Social Media Monitoring versus Obsahová analýza týchž dat nástrojem Homo Sapiens po očištění od irelevantních výskytů klíčových slov s doplněnými kontextovými příspěvky bez klíčových slov s ručně stanoveným sentimentem (pozitivní/neutrální/negativní) po započtení lajků, sdílení či retweetů jednotlivých příspěvků po zohlednění vlivu Opinion Makers New Media Inspiration 2013 Martin Petrášek, emerite.cz 2. z 11
Klíčová slova k vyhledávání: jména šesti největších českých pojišťoven zkratky ČP (Česká pojišťovna), ČPP (Česká podnikatelská pojišťovna) pojišťovna, pojištění, pojistka, pojistit se, apod. povinné ručení (POV), životko, cestovko, atp. Prohledány byly: příspěvky na Facebooku, Twitteru, Google Plus apod. komentáře pod články samostatná diskusní fóra blogy, a diskuse na dalších typech webových stránek Zdroj dat: kombinace softwarů, určených k monitoringu sociálních médií New Media Inspiration 2013 Martin Petrášek, emerite.cz 3. z 11
Výsledek? celkem nalezeno příspěvků 22 981 nerelevantní, bezcenné 91 % (20 901) relevantní 9 % (2 080) Pouze 9 % z příspěvků vyhledaných softwarem obsahovalo nějaký názor či smysluplné konstatování hodné analýzy. 91 % tvořily irelevantní výskyty klíčových slov a bezobsažné plky. Počet relevantních zahrnuje navíc oproti softwarově nalezeným: 98 kontextových hodnocení bez uvedení jména pojišťovny (4,7 %) 165 názorů vyjádřených prokliknutím tlačítka To se mi líbí (8 %), Souhlasím, Nesouhlasím apod. New Media Inspiration 2013 Martin Petrášek, emerite.cz 4. z 11
Které výskyty keywords byly irelevantní? klíčová slova: pojištění, pojistka, pojišťovna, pojistit celkem softwarem nalezeno: 16 300(!) z toho po pročtení relevantních: 775 (4,8 %) Proč irelevantní? ¾ = sociální/důchodové/zdravotní pojištění, aniž bylo výslovně zmíněno (jistěže daná sousloví byla už v softwaru filtrována) ¼ = obecná konstatování typu tak jsem si to pojistil, pojišťovna to proplácí apod. New Media Inspiration 2013 Martin Petrášek, emerite.cz 5. z 11
Které výskyty keywords byly irelevantní? klíčové slovo: ČP celkem softwarem nalezeno: 1 724 z toho po pročtení relevantních: 185 (11 %) Proč irelevantní? ½ ve smyslu číslo popisné ½ = Česká pošta (filtrace slov dopis či balík by odstranila mj. negativní zmínky o tom, že Česká pojišťovna rozesílala v reklamním dopise složenku, což bylo jedno z nejdiskutovanějších témat) New Media Inspiration 2013 Martin Petrášek, emerite.cz 6. z 11
Které výskyty keywords byly irelevantní? klíčové slovo: generali/generaly asi nema rada generaly (Karolína Peak) klíčové slovo: ČPP miluju ČPP Ostrava (florbalový klub) klíčové slovo: Uniqa/Unika/Uniqua mě se osvědčila Unika (klinika léčby neplodnosti v Brně) Plus stovky a tisíce tweetů a facebookových upoutávek na články zpravodajských serverů, s burzovními informacemi, atp. Filtraci pomocí vylučovacích slov či dle zdrojů nelze vždy použít. Diskutéři nepíšou celými větami, správné tvary slov. New Media Inspiration 2013 Martin Petrášek, emerite.cz 7. z 11
Software nechápe souvislosti, kontext. příspěvek negativní vůči České pojišťovně příspěvek není negativní vůči České podnikatelské pojišťovně New Media Inspiration 2013 Martin Petrášek, emerite.cz 8. z 11
Software nepozná sentiment. příspěvek negativní vůči (nejmenované) Kooperativě příspěvek pozitivní vůči (nejmenované) Evropské cestovní pojišťovně Objem diskusí o firmě/značce není roven počtu výskytů jejího jména. Kontextové příspěvky bez klíčových slov totiž tvoří až ¼. New Media Inspiration 2013 Martin Petrášek, emerite.cz 9. z 11
Podíly na diskusích dle softwaru: Skutečnost po očištění dat: 1. ČSOB poj. 36,3 % 2. Uniqa 19,0 % 3. Allianz 16,7 % 4. Generali 13,6 % 5. Česká poj. 8,5 % 6. Kooperativa 2,1 % 7. ostatní 2,1 % 8. ČPP 1,4 % 9. ČS 0,6 % AXA nenalezena 1. Česká poj. 27,8 % 2. Allianz 17,1 % 3. Generali 11,2 % 4. Kooperativa 10,4 % 5. ČS 8,3 % 6. ČPP 5,6 % 7. Uniqa 5,6 % 8. ČSOB poj. 3,5 % 9. AXA 2,7 % ostatní 7,7 % New Media Inspiration 2013 Martin Petrášek, emerite.cz 10. z 11
A co teprve rozdíly v parametrech: nejdiskutovanější témata v souvislosti s pojišťovnami sentiment u jednotlivých témat nejčastější servery s diskusemi nejaktivnější autoři příspěvků v nepročtených datech jen samá hausnumera. Závěry? Softwarová analýza obsahu diskusí poskytuje většinou zkreslená, resp. zcela chybná data. Účelem softwaru je monitoring, tzn. sběr dat. Smysluplně zanalyzovat obsah a emoční vyznění textu může jedině člověk. New Media Inspiration 2013 Martin Petrášek, emerite.cz 11. z 11