Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha



Podobné dokumenty
Uživatelská podpora v prostředí WWW

Osnova studie proveditelnosti pro projekt zakládání a rozvoje klastrů

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Statistické zobrazení nehod v geografickém informačním systému

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

PRODUKTY. Tovek Tools

Téma II. Eva Sovjáková. Workshop WasserBLIcK - CENIA,

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

PRODUKTY. Tovek Tools

MBI - technologická realizace modelu

Dobrý CMS Popis produktu a jeho rozšíření

Využití metod strojového učení v bioinformatice David Hoksza

Rešerše....hledáme dokumenty a informace. Martin Krčál

NÁVOD PRO VYHLEDÁVÁNÍ V DATABÁZI C.E.E.O.L. (CENTRAL AND EASTERN EUROPEAN ONLINE LIBRARY) / /

EVALUACE OP V LETECH VÝSLEDKY META-EVALUAČNÍHO ŠETŘENÍ Mgr. Jiří Remr, Ph.D., MBA

Rozcestník virtuálních světů

Daniel Beneš Slezská univerzita v Opavě Filozoficko-přírodovědecká fakulta Ústav informatiky

Stručný obsah. K2118.indd :15:27

Geoportál DMVS využití a další rozvoj

Od grafického návrhu k funkčnímu webu

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Tvorba internetových aplikací s využitím framework jquery

Evidence a správa kanalizace v GIS Kompas 3.2

Uživatelský manuál portálu VisualHealth Verze 1.0

Experimentální systém pro WEB IR

INTEROPERABILITA ÚVOD DO STUDIA STRUKTURA, POSLÁNÍ A FUNKCE INTEROPERABILITY A JEJÍ UPLATNĚNÍ V PROCESECH BEZPEČNOSTNÍHO MANAGEMENTU ING.

PŘÍPADOVÁ STUDIE ÚŘAD MĚSTSKÉ ČÁSTI PRAHA 3

PRŮVODCE STUDIEM PRO PREZENČNÍ FORMU STUDIA MODULU IT V PODNIKU DÍLČÍ ČÁST PROGRAMOVÁNÍ BUSINESS APLIKACÍ

Data x Informace x Znalosti

Část 1 Moderní JavaScript

kupní cena: ,- Kč Splatnost jednorázově, do 30 dnů ode dne podpisu kupní smlouvy na účet prodávajícího. Návrh č. 2.

Do knihovny skrze webový prohlížeč

Zpráva o zhotoveném plnění

Návrh uživatelského rozhraní Jednoduchý portál s recepty D1 + D2

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Automatizace ST optimalizace. Lukas Vozda Analytics & Automation

Čl. 3 Koordinace SVOČ Koordinací realizace SVOČ je pověřen prorektor pro vědu a výzkum v součinnosti s proděkany pro vědu a výzkum fakult.

Architektura softwarových systémů

Měření teploty, tlaku a vlhkosti vzduchu s přenosem dat přes internet a zobrazování na WEB stránce

TÉMATICKÝ OKRUH Softwarové inženýrství

Vývoj informačních systémů. Obecně o IS

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

Porovnání navržených a současných zón odstupňované ochrany přírody v CHKO Poodří Soubor map se specializovaným obsahem

Vytvořen. ení genetické databanky vybraných druhů savců ČR ití pro udržitelný rozvoj dopravy. Tomáš. Libosvár

Průzkumník IS DP. Návod k obsluze informačního systému o datových prvcích (IS DP) vypracovala společnost ASD Software, s. r. o.

Správa sítí. RNDr. Ing. Vladimir Smotlacha, Ph.D.

Střední odborná škola a Střední odborné učiliště, Hořovice

SYLABUS IT V. Jiří Kubica. Ostrava 2011

Dobrý SHOP Popis produktu a jeho rozšíření

+ + Katedra textilních a jednoúčelových strojů. Jednoúčelové stroje. Textilní stroje a stroje na výrobu nanovláken. Přístrojová technika

Teorie systémů TES 5. Znalostní systémy KMS

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Ing. Přemysl Brada, MSc., Ph.D. Ing. Martin Dostal. Katedra informatiky a výpočetní techniky, FAV, ZČU v Plzni

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Vysokoškolské kvalifikační práce na UPa. Pardubice 4. května 2010

Dobrý FOTO Popis produktu a jeho rozšíření

VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, O.P.S. Základy informatiky

PRŮZKUMNÍK ISDP NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP)

PRŮVODCE STUDIEM PRO PREZENČNÍ FORMU STUDIA MODULU CESTOVNÍ RUCH A VOLNOČASOVÉ OČASOVÉ AKTIVITY DÍLČÍ ČÁST PODNIKÁNÍ VE VOLNOČASOVÝCH AKTIVITÁCH

Osnova vstupní analýzy pro vyhledávání vhodných firem pro klastry

Evaluace přenosu znalostí v kyberprostoru

Genetická diverzita masného skotu v ČR

SOU Valašské Klobouky. VY_32_INOVACE_3_20_IKT_Tvorba_webovych_stranek_Redakcni_systemy. Mgr. Radomír Soural. Zkvalitnění výuky prostřednictvím ICT

Evidence městského mobiliáře v GIS Kompas 3.2

DATAMINING SEWEBAR CMS

Citační manager - Zotero. Mgr. Ilona Trtíková

RFID laboratoř Ing. Jan Gottfried, Ph.D.

Analytické metody v motorsportu

PRŮVODCE STUDIEM PRO PREZENČNÍ FORMU STUDIA MODULU CESTOVNÍ RUCH A VOLNOČASOVÉ OČASOVÉ AKTIVITY DÍLČÍ ČÁST PODNIKÁNÍ V CESTOVNÍM RUCHU.

1. Témata maturitních prací. 2. Termín závazného zadání maturitní práce. 3. Termín odevzdání maturitní práce. 4. Kritéria hodnocení maturitní práce

Inteligentní NetFlow analyzátor

Předzpracovnání dokumentů a tvorba doménového modelu z nich. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

RUP - Disciplíny. Jaroslav Žáček jaroslav.zacek@osu.cz

OCR systémy. Semestrální práce z předmětu Kartografická polygrafie a reprografie. Jakub Žlábek, Zdeněk Švec. Editor: Věra Peterová. Praha, květen 2010

TECHNICKÉ POŽADAVKY NA NÁVRH, IMPLEMENTACI, PROVOZ, ÚDRŽBU A ROZVOJ INFORMAČNÍHO SYSTÉMU

Detektor anomálií DNS provozu

Diagnostika infarktu myokardu pomocí pravidlových systémů

InternetovéTechnologie

METODIKA PRÁCE S TOUTO APLIKACÍ

RiJ ŘÍZENÍ JAKOSTI L 4 4-1

C. 3. Vytvoření metodiky práce s implementovaným IS včetně jeho naplnění daty relevantních procesů a způsobů jejich vyhodnocování

Přehled činnosti f.foresta SG Databázové aplikace pro lesnictví

SmartArt - PowerPoint 2010

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Závislost na počítačových hrách u žáků druhého stupně vybraných základních škol

Maturitní projekt do IVT Pavel Doleček

IntraVUE Co je nového

InternetovéTechnologie

HUMÁNNÍ GEOGRAFIE SEMINÁŘ

BMOF011 Aplikace MS Office. Word 2016 Lekce 4 Bibliografie. Matěj Karolyi IBA LF MU,

Výukový plán. Tematický okruh č. 1 - odborné jazykové vzdělávání pracovníků chemického průmyslu - odborná terminologie - chemie

UKB. Smart Campus MU. Masarykova univerzita. RNDr. Petr Glos Mgr. Adam Kučera. Správa Univerzitního kampusu Bohunice Oddělení facility managementu

Sledování sítě pomocí G3

ČSN EN ISO (únor 2012)

MBI portál pro podporu řízení podnikové informatiky. mbi.vse.cz

Měřítko plánu a mapy Pracovní list do matematiky pro žáky 7. ročníku

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ, OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE

Sémantický web a extrakce

Národní systém hlášení nežádoucích událostí

Transkript:

Identifikace tématických sociálních sítí Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

2 Obsah prezentace Cíl Fáze řešení a navržené postupy Prototyp a výsledky Další postup

3 Cíl Kdo se tím zabývá? identifikace osob spojených s daným tématem, oblastí či problematikou vzájemné vazby osob Tématická sociální síť Souhrn metod a postupů pro praktické užití Využití WWW prostoru jako zdroje dat

4 Fáze řešení Interakce s WWW prostorem Detekce vlastních jmen osob Zpřesnění identifikace osob Detekce vazeb mezi osobami Vizualizace

5 Interakce s WWW prostorem téma Interakce s WWW prostorem množina dokumentů Téma reprezentováno klíčovými slovy Výstupem množina textových dokumentů Použití WWW vyhledávačů

6 Detekce vlastních jmen osob množina dokumentů Detekce vlastních jmen osob Metody NLP vlastní jména osob Statistický přístup Slovníky vlastních jmen osob Využití kontextu

7 Detekce vlastních jmen osob množina dokumentů Použití masky NLP tagger kandidáti Ohodnocení h max, h min h Klasifikace vlastní jména osob

8 Detekce vlastních jmen osob kandidáti Kontrola křestních jmen Kontrola příjmení Kontrola příjmení (WordNet) Učení z předchozích rozhodnutí Kontrola slov v okolí k f k l k w k s k c h = k + k + k + k + f l w s k c h

9 Detekce vlastních jmen osob Kontrola křestních jmen 60 tis. jmen Behind the Name - the Etymology and History of First Names DBLP Bibliography Kontrola příjmení 217 tis. příjmení Frequently Occurring Names from the 1990 Census ICU Project at the Data Privacy Laboratory DBLP Bibliography

10 Detekce vlastních jmen osob Kontrola příjmení (Wordnet) 143 tis. slov kladné ohodnocení, pokud kandidát není ve Wordnetu Učení z předchozích rozhodnutí lze na křestní jména i příjmení Kontrola slov v okolí sledování okolí kandidáta (3 slova před a po) jako u učení k s = k sm c c p p + c c n n

11 Zpřesnění identifikace vlastní jména osob + téma Zpřesnění identifikace identifikace osob Čištění vstupních dat zpracování gramatických chyb a různých zápisů křestních jmen i příjmení koef. shody (soundex, levenshtein)

12 Zpřesnění identifikace Odlišit osoby se stejným vlastním jménem užití tématu jako doplňkové informace v tématu jedna osoba s daným vlastním jménem Identifikace osob s různou formou zápisu vlastního jména John Smith J. W. Smith Smith, J. William John William Smith z možných zápisů vybrán ten nejúplnější

13 Detekce vazeb mezi osobami identifikace osob + množina dokumentů Detekce vazeb mezi osobami identifikace vazeb Množina dokumentů S - jedno téma nebo sjednocení dokumentů z vybraných témat Váha w is termu i vzhledem k S množina významných termů V - w is > práh

14 Detekce vazeb mezi osobami Detekce vazeb mezi termy ve V podle společného výskytu ve vstupních dokumentech síla vazby p ijs mezi termy i a j nad množinou S Významnost vazby h ijs mezi termy vazby významných osob nebo pevné týmy koef. k dále jen vazby, kde h ijs > práh h = k( w + w ) + (1 k) p ijs is js ijs

15 Vizualizace osoby + vazby + témata Vizualizace Knihovna Graphwiz algoritmus NEATO Vzdálenost uzlů sítě úměrná 1/h ijs na vstupu vizualizace, nelze vždy Barva uzlů podle w is

16 Prototyp a dosažené výsledky Aplikace v PHP + MySQL Interakce s WWW prostorem Google pro získání množiny dokumentů přímé načtení zadaného URL a jeho přidání k tématu Detekce vlastních jmen osob ohodnocení nalezených kandidátů ruční v úvodních fázích návrh h min později automatické a h max

17 Prototyp a dosažené výsledky Zpřesnění identifikace bez čištění dat Detekce vazeb mezi termy analýza množiny témat podle zadaných prahových hodnot w is a h ijs nebo podle požadovaného počtu zobrazených vazeb Grafické zobrazení výstupu zobrazení osob v tématu podle příjmení vazby vybraného jedince podle příjmení seznam dosud načtených témat a dokumentů

18 Nastavení vstupních hodnot Volba k f, k l, k w, k sm, k cm tak, aby byla co nejlépe odlišitelná vlastní jména osob od ostatních slovních spojení zvoleno h min = h max = h m pro dané hm e n chybně ohodnocené negativní příklady e p chybně ohodnocené pozitivní příklady = c n+ e n cn e p = c p c p

19 Nastavení vstupních hodnot Volba h m podle e d = e p e n (stejná velikost chyb e p a e n ) podle e s = e p + e n (minimální souhrnná chyba) 35,00 30,00 25,00 e [%] 20,00 15,00 10,00 en ep ed es 5,00 0,00-1,00-0,50 0,00 0,50 1,00 1,50 2,00 h m

20 Výsledky 16671 klasifikovaných termů, z toho 3079 pozitivně hodnocených jako vlastní jména osob 17 témat 397 WWW stránek

21 Další postup Základ pro další výzkum Rozšíření záběru a zpřesnění dosahovaných výsledků rozšíření vstupních importních filtrů - citační servery Stanovení vhodných hodnot k f, k l, k w, k sm, k cm genetické algoritmy F(k f, k l, k w, k sm, k cm ) = e d (k f, k l, k w, k sm, k cm )

22 Další postup Metodika automatizovaného stanovení mezních hodnot h min a h max (event. h m ) výběr vhodného kritéria Zpřesnění identifikace osob využití WWW zdrojů Vizualizace výstupů 3D zobrazení pomocí jazyka VRML, X3D

23 Závěr Příspěvek do oblasti detekce potenciálních sociálních sítí Navrženy metody práce s vlastními jmény osob Funkční prototyp aplikace, prakticky otestován Výstupy použitelné všude, kde je potřeba identifikovat tématicky definované sociální sítě výzkum, finančnictví, kriminalistika, ekonomika, atd.

24 Děkuji za pozornost Otázky?