Identifikace tématických sociálních sítí sítí



Podobné dokumenty
Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

AISIS, a.s. - Floriánské nám Kladno - h2k.aisis.cz Tel., fax: S ANALÝZA

3.2 Metody s latentními proměnnými a klasifikační metody

1. Ukazatele primární: - jsou přímo zjišťované, neodvozené - např. stav zásob, počet pracovníků k , atd.

Systémové struktury - základní formy spojování systémů

Výpočet svislé únosnosti osamělé piloty

7. VÝROBNÍ ČINNOST PODNIKU

1.3.3 Přímky a polopřímky

Směrová kalibrace pětiotvorové kuželové sondy

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ

Výpočet svislé únosnosti osamělé piloty

Úvěr a úvěrové výpočty 1

Bibliografický popis elektronických publikací v síti knihoven ČR

Dynamické programování

Národní informační středisko pro podporu jakosti

Způsob určení množství elektřiny z kombinované výroby vázané na výrobu tepelné energie

TERMODYNAMIKA 1. AXIOMATICKÁ VÝSTAVBA KLASICKÉ TD Základní pojmy

TERMODYNAMIKA 1. AXIOMATICKÁ VÝSTAVBA KLASICKÉ TD Základní pojmy

6. Vliv způsobu provozu uzlu transformátoru na zemní poruchy

PRŮTOK PLYNU OTVOREM

Cvičení z termomechaniky Cvičení 5.

Stabilita prutu, desky a válce vzpěr (osová síla)

{ } Konstrukce trojúhelníků I. Předpoklady: 3404

Pokud světlo prochází prostředím, pak v důsledku elektromagnetické interakce s částicemi obsaženými

Laplaceova transformace.

2.3.6 Práce plynu. Předpoklady: 2305

OPTIMALIZACE PLÁŠTĚ BUDOV

PARALELNÍ PROCESY A PROGRAMOVÁNÍ

MĚŘENÍ VÝKONU V SOUSTAVĚ MĚNIČ - MOTOR. Petr BERNAT VŠB - TU Ostrava, katedra elektrických strojů a přístrojů

Numerické výpočty proudění v kanále stálého průřezu při ucpání kanálu válcovou sondou

Analytická metoda aneb Využití vektorů v geometrii

Větrání hromadných garáží

Závislost indexů C p,c pk na způsobu výpočtu směrodatné odchylky

Oddělení technické elektrochemie, A037. LABORATORNÍ PRÁCE č.9 CYKLICKÁ VOLTAMETRIE

Knihovna modelů technologických procesů. Bc. Radim Pišan

Datová centra a úložiště. Jaroslav G. Křemének g.j.kremenek@gmail.com

Statistická analýza dat - Indexní analýza

Komparace Value at Risk a Expected Shortfall v rámci Solvency II

Metody s latentními proměnnými a klasifikační metody

DIAGNOSTICKÁ MĚŘENÍ V SOUSTAVĚ MĚNIČ - MOTOR

Předpjatý beton Přednáška 6

PRODUKTY. Tovek Tools

Termodynamické základy ocelářských pochodů

Rozhodovací stromy Marta Žambochová

POSUDEK SPOLEHLIVOSTI VYBRANÉ OCELOVÉ KONSTRUKCE NUMERICKÝM ŘEŠENÍM

Rovnice paraboly

Úlohy domácí části I. kola kategorie C

PRODUKTY. Tovek Tools

ze dne 2016, Nejlepší dostupné technologie v oblasti zneškodňování odpadních vod a podmínky jejich použití

Zahraniční platební styk CZA 3.2 CZ. 1. Popis/Instalace... 3

Experimentální identifikace tepelného výměníku. Bc. Michal Brázdil

Markovovy řetězce se spojitým časem CTMC (Continuous time Markov Chain)

Ekonomika podniku. Katedra ekonomiky, manažerství a humanitních věd Fakulta elektrotechnická ČVUT v Praze. Ing. Kučerková Blanka, 2011

GEOMETRICKÉ PROJEKCE. Petra Surynková, Yulianna Tolkunova

NÁVRH A OVĚŘENÍ BETONOVÉ OPŘENÉ PILOTY ZATÍŽENÉ V HLAVĚ KOMBINACÍ SIL

1. série. Různá čísla < 1 44.

VYUŽITÍ TRANSIMPEDANČNÍCH ZESILOVAČŮ V AKTIVNÍCH FILTRECH

Uživatelská podpora v prostředí WWW

Tvorba internetových aplikací s využitím framework jquery

MĚŘENÍ PLANCKOVY KONSTANTY

EKONOMETRIE 2. přednáška Modely chování výrobce I.

Aproximativní analytické řešení jednorozměrného proudění newtonské kapaliny

GONIOMETRICKÉ ROVNICE -

můžeme toto číslo považovat za pravděpodobnost jevu A.

Předpjatý beton Přednáška 12

Spojitá náhodná veličina

1.5.2 Mechanická práce II

Úloha č.1: Stanovení Jouleova-Thomsonova koeficientu reálného plynu - statistické zpracování dat

Analýza chování hybridních nosníků ze skla a oceli Ing. Tomáš FREMR doc. Ing. Martina ELIÁŠOVÁ, CSc. ČVUT v Praze Fakulta stavební

VYBRANÉ STATĚ Z PROCESNÍHO INŽENÝRSTVÍ cvičení 6

Řešený příklad:: Kloubový přípoj nosníku na pásnici sloupu s čelní deskou

zadání: Je dán stejnosměrný motor s konstantním magnetickým tokem, napájen do kotvy, indukčnost zanedbáme.

Získávání dat z bibliografických databází

PZP (2011/2012) 3/1 Stanislav Beroun

Obr. V1.1: Schéma přenosu výkonu hnacího vozidla.

MBI - technologická realizace modelu

Téma 7: Přímý Optimalizovaný Pravděpodobnostní Výpočet POPV

Příklady k přednášce 1. Úvod

o. elektronickou KOpli aoaatku č. 18, který obsahuje speciální ujednání pro období roku 2016.

VLIV ELEKTROMAGNETICKÉ KOMPATIBILITY NA BEZPEČNOST LETOVÉHO PROVOZU INFLUENCE OF THE ELECTROMAGNETIC COMPATIBILITY ON THE AIR TRAFFIC SAFETY

Porovnání dostupnosti různých konfigurací redundance pro napájení stojanů

3.1.1 Přímka a její části

1.5.5 Potenciální energie

CVIČENÍ Z ELEKTRONIKY

5.1.8 Vzájemná poloha rovin

7.3.2 Parametrické vyjádření přímky II

Numerická integrace konstitučních vztahů

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

ší ší šířen ší ší ení Modelování Klasifikace modelů podle formy podobnosti Sestavení fyzikálního modelu

5.1.7 Vzájemná poloha přímky a roviny

Kvantová a statistická fyzika 2 (Termodynamika a statistická fyzika)

Reproduktor elektroakustický měnič převádějící elektrický signál na akustický signál, převážně zvukový

Vnitřní odpínače H 27. trojpólové provedení jmenovité napětí 12 a 25 kv jmenovitý proud 630 A

Výpo ty Výpo et hmotnostní koncentrace zne ující látky ,

Minia D18 SVODIČE PŘEPĚTÍ SVD SVD

Zkoušení a dimenzování chladicích stropů

Nakloněná rovina III

Regresní lineární model symboly

Protokol o provedeném měření

Transkript:

Identifikae tématikýh soiálníh sítí sítí Jiří Jelínek 1 1 Katedra Katedra managementu managementu informaí, informaí, FM, Vysoká FM, škola Vysoká ekonomiká, škola ekonomiká, Jarošovská 1117/II, Jarošovská 377 1117/II, 01, Jindřihův 377 01, Jindřihův Hrade Hrade jelinek@fm.vse.z Abstrakt. V rámi tohoto rojektu byl navržen ostu identifikae tématikýh soiálníh sítí omoí analýzy výstuů webovýh vyhledávaíh systémů o zadání určité odborné oblasti či seifikého klíčového slova. Byla vytvořena metoda identifikae vlastníh jmen osob a byly zkoumány možnosti automatizae této činnosti. Dále byla ozornost věnována významovému zřesnění těhto jmen a odstranění říadnýh duliit. Součástí rojektu bylo také vytvoření mehanizmu ro odhalování odbornýh vazeb mezi jedini. Zkoumány byly i různé formy vizualizae výslednýh sítí. Předkládaný řísěvek oisuje kromě výše uvedenýh metod i z nih vyházejíí raktiké řešení a výsledky získané jeho testováním v raxi. Klíčová slova: WWW, grafy, soiální sítě, NER, deteke vazeb mezi termy 1 Úvod Hlavním motivem sesání tohoto řísěvku je rezentovat metody a ostuy oužitelné v softwarovém nástroji umožňujíím, okud možno automatiky, identifikovat a následně zobrazit odborné vazby mezi jednotlivi na základě obeně dostunýh dat získanýh webovými vyhledávači. Takový nástroj by mohl výrazně omoi ři orientai kdo je kdo v dané oblasti, bylo by možné identifikovat významné jedine a ři odborné rái se soustředit na informae od ramene. Vyhledávání vlastníh jmen osob v rostředí WWW a jejih další zraování není říliš rozšířenou službou. Je samozřejmě možné využít ři hledání konkrétního jména standardní vyhledávaí systémy, otázkou však je, nakolik jsou získané výsledky raktiky oužitelné, jestliže na dotaz John Smith dostaneme nař. vyhledávačem Google 261 milionů odkazů. Také je otázkou, zda rávě takto oložený dotaz nejlée vystihuje otřeby uživatele a oskytne odovědi, které uživatel he získat. Většinou nás nezajímají ani tak jména samotná, jako síše jména v určitém kontextu (oblasti), který lze ro účely vyhledávání harakterizovat vybranými klíčovými slovy. Dotaz tedy častěji směřuje síše na zvolenou oblast, ve které nás zajímají vlastní jména osob s ní sojenýh a vztahy těhto osob. Právě na základě výše uvedené úvahy byl vytvořen tento řísěvek. S ostuem raí se však ukázalo, že oblast identifikae a zraování vlastníh jmen osob vyžaduje širší zkoumání a také, že výsledky mohou být užity ři odoře širšího sektra činností, než byl ůvodní ředoklad. Válav Snášel (Ed.): Znalosti 2008,. 90 100, ISBN 978-80-227-2827-0. FIIT STU Bratislava, Ústav informatiky a softvérového inžinierstva, 2008.

Identifikae tématikýh soiálníh sítí 91 Přísěvek je dále rozdělen do několika kaitol. Druhá kaitola harakterizuje současný stav v ředmětné oblasti výzkumu. Třetí kaitola se věnuje navrhovaným ostuům a metodám ro deteki vlastníh jmen osob, zřesnění jejih významu a deteki vazeb mezi osobami. Čtvrtá kaitola oisuje arhitekturu navrženého rototyu a rezentuje dosažené výsledky. Kaitola átá shrnuje elý rojekt a nastiňuje další ostu. Šestá kaitola je ak závěrem řísěvku. 2 Současný stav Celý roblém deteke a následného zraování vlastníh jmen osob ro výše osaný účel lze rozdělit do několika fází, které budou diskutovány dále. První z nih je deteke vlastníh jmen osob. Tato oblast je obvykle označována jako NER (Named Entity Reognition), EI (Entity Identifiation) či EE (Entity Extration) a její historie sahá do 90. let minulého století. Přístuů k řešení tohoto úkolu je několik: 1. Metody NLP jsou jednou z rvníh metod deteke vlastníh jmen osob. Jejih základem je obvykle syntaktiká analýza větné stavby textu a užití ravidel ro identifikai jmen. Velmi odstatnou součástí detekčníh mehanizmů je také sledování velkýh očátečníh ísmen slov. To však může některé informační zdroje diskriminovat (některé zravodajské agentury nař. šíří zrávy sané ouze velkými ísmeny). Detekovat lze nejen vlastní jména osob, ale i míst a organizaí [3]. Příkladem užití gramatikýh ravidel může být nař. tagger ANNIE [1], který je součástí balíku GATE nebo systémy FreeLing [5] či NE lassifier [3]. 2. Druhou možností je statistiký řístu. Užity mohou být běžně užívané klasifikátory, zejména naivní bayesovský klasifikátor. Metoda vyhází z dostatečně obsáhlé trénovaí množiny. Na základě ručního ohodnoení říkladů z této množiny je ři následujíím výskytu stejného termu vyočtena ravděodobnost jeho říslušnosti k ozitivně či negativně hodnoeným říkladům. 3. Podobná metoda vyhází z existene rozsáhlýh slovníků vlastníh jmen osob. Od statistikého řístuu se liší ředevším existení ouze ozitivně hodnoenýh říkladů a římým orovnáváním zkoumaného termu se slovníkem. Tento ostu je osán nař. v [14]. Problémem je zde získání dostatečně obsáhlýh slovníků. 4. Využití kontextu je rovněž zajímavý řístu k deteki vlastníh jmen osob. Je založen na zkoumání bezrostředního okolí daného slova či sousloví [12], řičemž na slova blízká zkoumanému termu může být ulatněn statistiký řístu, na základě kterého je ak danému termu řiřazena ravděodobnost, s jakou se může jednat o vlastní jméno osoby. Fáze zřesnění významu je v říadě vlastníh jmen osob dosti komlikovaná a dosahované výsledky nejsou nikdy storoentní. Hlavní úkoly jsou zde následujíí: 1. Samostatným roblémem je čištění vstuníh dat, ve kterýh mohou být gramatiké hyby a řeisy. Jednou z možností je orovnávání jmen na

92 Jiří Jelínek základě fonetiké hodnotíí funke a užití rozsáhlýh slovníků ro koreki hyb. 2. Odlišit osoby se stejným vlastním jménem tento úkol je obvykle řešen s omoí dolňkové informae. Tou může být nař. tématiká oblast, se kterou je osoba sojena, v říadě autorů název jejih ublikae, informae o geografiké oloze, atd. Samotné odlišení (klasifikae) je ak realizováno klasifikátory raujíími na základě strojového učení. Nař. v [8] je jako dolňkový údaj oužit název ublikae dané osoby a ro klasifikai je zvolen naivní bayesovský klasifikátor nebo Suort Vetor Mahines (SVM). Tato fáze nemůže být zela oddělena od následujíí. 3. Dále je nutné identifikovat vlastní jména osob s různou formou záisu řešení často vyhází z čistě syntaktikýh ravidel definujííh ro dvě formy záisu zůsob jejih orovnání a ohodnoení a uřednostňovaný výstu. Preferován může být jak o nejkratší záis daný říjmením a říadně iniiály rvního křestního jména (který je vlastně nejobenějším označením jedine) nebo záis o nejúlnější obsahujíí lná znění všeh jmen. Dalším krokem je deteke vazeb mezi osobami identifikovanými svými vlastními jmény. Pokud si uvědomíme, že tento roes je ouze seiálním říadem deteke vazeb mezi termy, je možné ři řešení vyházet rávě z této širší oblasti. Metoda navržená v [11] nař. detekuje vazby termů na základě jejih současného výskytu v dokumenteh. Ohodnoení vazeb a ulatnění rořezávaíh tehnik je založeno na odmíněnýh ravděodobnosteh jejih výskytu (každá vazba je háána jako orientovaná a je tedy ohodnoena v obou směreh). V [11] jsou uvedeny i další navazujíí ostuy možného využití takto získanýh dat o vztazíh termů. 3 Navržené ostuy Při návrhu metod deteke a zraování vlastníh jmen osob bylo hlavním ílem definovat komletní metodiku elého roesu tak, aby na jejím základě mohla být vytvořena oužitelná alikae. Celý ostu byl rozdělen do následujííh fází: 1. Deteke jmen osob 2. Zřesnění významu (identifikae) 3. Deteke vazeb mezi jmény Jednotlivé fáze budou nyní robrány odrobněji. 3.1 Deteke vlastníh jmen osob Úkol, který je nutné v této části vyřešit, lze definovat takto: mějme zadaný rostý text obsahujíí vlastní jména osob, ožadovaným výstuem je seznam těhto jmen. V oisovaném říadě je vstuem WWW stránka, jejíž URL je buď římo zadané nebo získané jako součást výstuu vyhledávače. Samotná deteke jmen robíhá v několika dále osanýh fázíh. První z nih je oužití masky na vstuní text. Tento krok odhaluje možné kandidáty na vlastní jména osob. Příustné formy záisu jsou v zásadě dvě: jméno1 jméno2

Identifikae tématikýh soiálníh sítí 93 říjmení nebo říjmení, jméno1 jméno2. Na oziíh křestníh jmen mohou být rovněž ouze iniiály, druhé křestní jméno může být vyneháno. Paralelně s tímto zůsobem deteke robíhá identifikae NLP s omoí balíku Named Entity Tagger [3], jehož výstu je sloučen s výstuy výše uvedené metody. Kandidáti z takto získané množiny jsou následně ohodnoeni několika různými tehnikami. Cílem hodnoení je kvantifikovat šani, s jakou je kandidát skutečně vlastním jménem osoby (čím vyšší kladné hodnoení, tím větší šane, že jde o vlastní jméno osoby). První část ohodnoení vyhází z kontroly křestníh jmen. Pro tento krok byla ze serveru [2] extrahována běžně oužívaná křestní jména ro elou škálu jazyků (angličtina, němčina, čeština, arabština, čínština, atd.). Dalším zdrojem referenčníh dat byla databáze DataBase systems and Logi Programming (DBLP) [4] obsahujíí bibliografiké informae o obsahu hlavníh časoisů a sborníků zaměřenýh na výše uvedenou oblast. Vytvořená databáze (a 60 000 unikátníh jmen) je ak užita ke kontrole křestníh jmen, nalezení kandidáta v databázi vede ke zvýšení jeho kladného ohodnoení o hodnotu k f. Stejný ostu je ulatněn rovněž ři kontrole říjmení. Celý systém je zaměřen na angličtinu, roto byl za základ referenční databáze říjmení oužit výstu sčítání obyvatel USA, kde jsou nejčastější říjmení uvedena [6]. Tento zdroj byl dále dolněn z [9], kde jsou uvedena říjmení studentů amerikýh univerzit z roku 2003 a z DBLP [4]. Získaná databáze obsahuje a 217 000 říjmení a identifikae kandidáta zvýšila jeho ohodnoení o koefiient k l. Další formou ohodnoení je využití databáze odstatnýh jmen z rojektu WordNet [15] obsahujíí a 143 000 unikátníh oložek. Ty jsou orovnávány s říjmeními kandidátů. V říadě, že říjmení se nevyskytuje ve WordNetu, je zvýšeno ozitivní hodnoení kandidáta o koefiient k w. Tato kontrola je založena na úvaze, že slova bez reálného významu mohou být říjmeními. Další metody ohodnoení jsou založeny na statistikém riniu učení z ředhozíh rozhodnutí. Systém uhovává jak ozitivně klasifikované kandidáty, ze kterýh se stávají regulérní termy, tak i negativně klasifikované říady. Každý nový kandidát je ohodnoen na základě výočtu koefiientu k s k sm n =, (1) + kde je očet ozitivně hodnoenýh výskytů daného jména, n očet negativně hodnoenýh říadů a k sm je volitelný koefiient odrážejíí váhu tohoto hodnotíího kritéria. Tento systém hodnoení lze samostatně ulatnit jak na říjmení, tak na křestní jména. Poslední kritérium vyhází z modelu osaného v [12] a ostuu uvedeného v ředhozím odstavi. Hodnoení kandidáta je zvýšeno o hodnotu k odle výskytu slov v jeho bezrostředním okolí, které sahá 3 slova řed a tři slova za říslušného kandidáta. Výstuem fáze deteke je seznam kandidátů, u nihž je ro výočet jejih výsledného ohodnoení oužit následujíí vzore: h = k + k + k + k + k (2) f l w n s

94 Jiří Jelínek Vyjádření vah jednotlivýh členů je dáno již samotnou volitelnou hodnotou jednotlivýh koefiientů (výjimkou jsou k s a k, jejihž váhy jsou dány maximálními hodnotami k sm a k m ). Výsledné ohodnoení by jistě bylo možné vyjádřit i jiným vztahem, výběr otimálního výočtu a nastavení koefiientů mohou být ředmětem dalšího výzkumu. Seznam kandidátů může být následně rezentován uživateli k ruční klasifikai nebo ohodnoen automatiky. První možnost je odstatná zejména v očátečníh fázíh, kdy není k disozii dostatek klasifikovanýh říkladů vlastníh jmen. Později již lze využít klasifikai na základě uživatelem zadanýh mezníh hodnot hodnoení h min a h max. V říadě h > h max je kandidát ovažován za vlastní jméno, okud h < h min, je jeho výsledné hodnoení negativní. S říady, kdy latí h min < h < h max, lze naložit různě. Vhodnou estou se zdá být jejih vymazání ze seznamu kandidátů nebo jejih ruční hodnoení. Výstuem elé části deteke vlastníh jmen osob je tedy seznam klasifikovanýh kandidátů, z nihž jsou dále zraovávány ouze ozitivní říady, (detekovaná vlastní jména). 3.2 Zřesnění významu Metoda zřesnění významu se zaměřuje ředevším na identifikai osob a seleki jediné formy záisu vlastního jména ro danou osobu, řičemž oba úkoly jsou řešeny současně. Nejrve jsou orovnávány různé formy záisu vlastníh jmen a je testováno, zda označují stejnou osobu. Za kritérium shody je bráno stejné říjmení a shoda křestníh jmen (rvníh) nebo jejih iniiálů. Z takto zjištěnýh možnýh záisů jednoho jména je vybrán ten, který je nejúlnější (okud možno lné znění všeh jmen). Problém identifikae osoby je zjednodušeně řešen s omoí dolňkové informae, kterou tvoří téma (harakterizované klíčovým slovem nebo slovy), ke kterému má daná osoba vztah (o jehož zadání do vyhledávače bylo dané jméno získáno). Při výběru referované formy záisu je roto tento údaj brán v úvahu a orovnávány jsou jen termy z jedné tématiké oblasti. Předokladem tohoto řešení je, že v dané oblasti se vyskytuje ouze jedna osoba s jedinečnou kombinaí jméno - říjmení. 3.3 Identifikae souvislostí mezi termy Identifikae souvislostí mezi termy je rováděna na základě výskytu těhto termů solečně v jednotlivýh vstuníh dokumenteh (WWW stránkáh). Použitý algoritmus vyhází z ostuu uvedeného v [11] s drobnými úravami. Dále uvedené výočty jsou vždy vztaženy k množině dokumentů S vzniklé sjednoením WWW stránek z tématikýh skuin definovanýh výrazy zadanými ro jejih vyhledání do vyhledávače Google. Váha konkrétníh termů se tak může lišit odle arametrů vyhledávání a je definována jako

Identifikae tématikýh soiálníh sítí 95 w is = K S k= 1 K S k= 1 n ik k, (3) kde w is je váha termu t i vzhledem k množině tématikýh skuin S, K S očet tématikýh skuin sjednoenýh v S, n k očet dokumentů v dané tématiké skuině a ik očet dokumentů s termem t i v tématiké skuině k. Podle [11] tvoří termy s w is > ráh množinu významnýh termů V, která slouží za základ dalšímu ostuu. Na té jsou dále definovány dvojie termů ( t i, t j ). Pro každou takovou dvojii a ro množinu S lze vyočítat výraz ijs = K S k= 1 2 K S k= 1 ( ik ijk + jk ), i j (4) kde K S je očet tématikýh skuin sjednoenýh v S, ijk očet dokumentů se současným výskytem termů t i i t j v tématiké skuině k a ik, res. jk jsou očty dokumentů ve skuině k, kde se vyskytuje term t i, res. t j. Pro stanovení významnosti vazby mezi termy t i a t j byla zvolena hodnota h = k( w + w ) + (1 k) (5) ijs is js Tato hodnota harakterizuje význam vazby mezi osobami s vlastními jmény t i a t j v dané množině tématikýh skuin S. Vztah je založen na síle vazby ijs, vyházejíí ze solečného výskytu termů t i a t j, a na významnosti uvedenýh termů. Volitelný koefiient k z intervalu <0,1> umožňuje zdůraznit složku vyházejíí z významnosti termů (k 1) nebo složku založenou na ohodnoení dané vazby (k 0). Pro zařazení vazby do výstuu musí být h ijs > m, kde m je uživatelem definovaná mezní hodnota. Výsledkem této fáze je seznam dvoji termů, které se vyskytují solečně včetně ohodnoení jejih vazby hodnotou h ijs. K vizualizai dat získanýh výše uvedenými ostuy je oužita knihovna Grahviz [7]. Z dostunýh algoritmů ro tvorbu rozvržení grafu byl vybrán algoritmus NEATO. Základním výstuem vizualizae je zobrazování termů a jejih vazeb z vybranýh tématikýh oblastí. Vzdálenost jednotlivýh uzlů byla nastavena úměrně hodnotě 1/ h ijs, barva uzlů odle váhy termů w is. ijs 4 Arhitektura rototyu a dosažené výsledky Výše uvedené ostuy byly imlementovány do rototyu webové alikae nasané v PHP a MySQL. Ta umožňuje realizovat všehny uvedené činnosti: 1. Načtení výstuů vyhledávače Google ro zadané téma a s volitelným očtem odkazů ve výstuu vyhledávač Google je zde oužit ro nalezení relevantníh stránek k danému tématu. Volit lze rovněž mezi dvěma zůsoby

96 Jiří Jelínek vyhledávání (fráze či seznam slov). Nalezené stránky systém následně načítá a detekuje v nih kandidáty na vlastní jména osob. 2. Načtení zadaného URL a jeho řidání k zadanému tématu stejná činnost jako v ředhozím bodu, ale stránka není vyhledávána, nýbrž zadána římo. 3. Automatiké ohodnoení nalezenýh kandidátů ostuy uvedenými výše v tomto řísěvku. 4. Volitelné zobrazení kandidátů ro klasifikai uživatelem je rezentován seznam kandidátů s jejih ohodnoením a výstuem řednastaveným odle kritérií h min a h max. Tato činnost není rováděna v automatikém režimu. 5. Prezentae seznamu dosud analyzovanýh témat s očtem analyzovanýh stránek ke každému z nih. 6. Analýza vstuů a následné zobrazení síťového grafu souvislostí mezi termy kritériem ro zařazení dané vazby je h ijs > m (viz výše). Jednotlivé uzly (osoby) mohou být barevně odlišené odle hodnot w is. 7. Grafiké zobrazení vazeb vybraného jedine odle říjmení toho lze zvolit kliknutím na ředhozí graf tématiké oblasti. V říadě shody říjmení jsou vysány všehny vyhovujíí termy. 35,00 30,00 25,00 e [%] 20,00 15,00 10,00 en e ed es 5,00 0,00-1,00-0,50 0,00 0,50 1,00 1,50 2,00 h m Obr. 1. Graf závislosti hyb e d, e, e n a e s na hodnotáh h m Aby alikae umožňovala rovněž automatizovaný režim rovozu, kdy uživatel zadá seznam ožadovanýh témat k analýze a systém je zrauje, je nutné stanovit uživatelsky zadané koefiienty. Ve fázi deteke vlastníh jmen jde zejména o hodnoty h min a h max. Podle jejih volby jsou ak hodnoeni jednotliví kandidáti, řičemž jejih vlastní hodnoení h je závislé na koefiienteh k ro jednotlivé metody hodnoení. Volba k f, k l, k w, k sm, k m musí být rovedena tak, aby ozitivně a negativně klasifikovaní kandidáti měli maximálně odlišné hodnoty h ři minimální hybě

Identifikae tématikýh soiálníh sítí 97 klasifikae. Pro zjednodušení bylo ři exerimenteh stanoveno h min = h max, takže bylo nutné nalézt ouze jedinou mezní hodnotu h m. Pro nalezení její otimální velikosti na základě již klasifikovanýh termů byly ro h m z vybraného intervalu vyočteny hodnoty hyb e n+ n =, n e =, (6) kde n+ je očet negativně hodnoenýh říkladů s h > h m, n elkový očet negativně hodnoenýh říkladů, - je očet ozitivně hodnoenýh říkladů s h < h m a elkový očet ozitivně hodnoenýh říkladů. h m může být stanovena různým zůsobem. Jednou z variant je stanovení h m odle minimální hodnoty výrazu e d = e e n. Tento ostu zaručuje stejnou velikost hyb e a e n. Jinou možností je nař. oužití kritéria minimální souhrnné hyby e s = e + e n. Výběr nejvhodnější metody stanovení h m bude ředmětem dalšího výzkumu. Grafy růběhů hyb ro vybrané nastavení koefiientů k f, k l, k w, k sm, k m jsou uvedeny na obr.1. Graf naznačuje, že vhodným nastavením může být h m = 0,25 ři volbě odle hodnot e d nebo h m = -0,1 ři volbě odle e s. S osaným systémem byly rovedeny rvní exerimenty. Systém nyní obsahuje data z 397 analyzovanýh WWW stránek říslušnýh k 17 různým tématům. Počet klasifikovanýh termů dosáhl 16671, z toho 3079 ozitivně hodnoenýh. Z dosaženýh výsledků vylývá, že oužité metody jsou zela životashoné a mohou sloužit jako základ ro další výzkum a vývoj. Jako říklad výstuu je na obr. 2 uveden graf identifikované tématiké sítě ro téma linux založené na analýze 51 webovýh stránek. Obr. 2. Identifikovaná tématiká síť ro téma linux

98 Jiří Jelínek Barva termů na obrazove (odstín v tisku) odovídá jejih váze, délky hran byly v zadání grafu voleny neřímo úměrně síle říslušné vazby, ož vykreslovaí algoritmus resektoval v rámi možností 2D zobrazení. 5 Shrnutí a další ostu Na základě rovedenýh exerimentů lze konstatovat, že alikae vystavěná na zde osanýh metodáh identifikae tématikýh soiálníh sítí oskytuje zajímavé výsledky a vytváří vhodný základ ro další výzkum v této oblasti. Další ostu se soustředí na některá vylešení, která by mohla možná užití alikae dále rozšířit a zřesnit dosahované výsledky. Mezi ně atří naříklad rozšíření vstuníh imortníh filtrů. V současné době je rimárním zdrojem dat vyhledávač Google, a to ředevším z důvodu zajištění obeného zdroje informaí. Počítá se však s imlementaí dalšíh imortníh filtrů ro seiální data. Jako nejzajímavější se jeví užití dat z itačníh serverů. V oblasti deteke vlastníh jmen by bylo vhodné se zamyslet nad ostuy stanovení vhodnýh hodnot k f, k l, k w, k sm, k m. Protože jde v odstatě o otimalizační úlohu, možnou estou by zde bylo užití genetikýh algoritmů. Na základě dalšíh exerimentů bude též nutné se dále zabývat metodikou automatizovaného stanovení mezníh hodnot h min a h max (event. h m ). Pro zřesnění významu nalezenýh termů by bylo užitečné uvažovat o vývoji a imlementai dokonalejšíh tehnik založenýh na okročilýh ostueh analýzy získanýh dat. Pro zobrazení výstuů by mohlo být užito 3D zobrazení omoí jazyka VRML, které je osáno nař. v [10]. 6 Závěr Posané teoretiké metody informačními tehnologiemi odorované identifikae tématikýh sítí jsou dalším řísěvkem do aktuální oblasti tvorby a deteke oteniálníh soiálníh sítí. Navrhovaný rototy alikae je ak ukázkou jejih konkrétního ulatnění a získané výstuy mohou být římo užity v raxi a to nejen v oblasti vědekého výzkumu, ale všude tam, kde je otřeba identifikovat tématiky definované soiální sítě (nař. v oblasti finančnitví, v kriminalistie, ekonomie, atd.). Postu byl raktiky otestován, řičemž objevil významné vazby v danýh tématikýh oblasteh. V současné době robíhají další exerimenty zaměřené ředevším na výzkum modifikaí a rozšíření uvedené metodiky.

Identifikae tématikýh soiálníh sítí 99 Referene 1. Annie Named Entity Tagger, In: htt://www.mediastyle.om/index.js?folderpk=754, Otober 2007 2. Behind the Name - the Etymology and History of First Names, In: htt://www.behindthename.om/, Otober 2007 3. CCG: Software Named Entity Tagger. In: htt://l2r.s.uiu.edu/~ogom/asoftware.h?skey=ne#tools, Otober 2007 4. DBLP Bibliograhy, In: htt://dbl.uni-trier.de/xml/, Otober 2007 5. FreeLing Home Page. In: htt://garraf.esevg.u.es/freeling/, Otober 2007 6. Frequently Ourring Names from the 1990 Census, In: htt://www.ensus.gov/genealogy/www/freqnames.html, Otober 2007 7. Grahviz, In: htt://www.grahviz.org/, Otober 2007. 8. Han, H.; Giles, L.; Zha, H.; Li, C.; Tsioutsiouliklis, K.: Two suervised learning aroahes for name disambiguation in author itations. In: Proeedings of the 4th ACM/IEEE-CS Joint Conferene on Digital Libraries (Tuson, June 2004). JCDL '04. ACM Press, New York, 2004,. 296-305. 9. ICU Projet at the Data Privay Laboratory, In: htt://rivay.s.mu.edu/datarivay/rojets/iu/datainfo.html, Otober 2007 10. Jelínek J.; Kunčar D.; Přibil J.: Vizualizae textovýh dat omoí grafů, Konferene Znalosti 2006, Hrade Králové, únor 2006, In: Paralič J., Dvorský J., Krátký M. (eds.): Znalosti 2006,. 276-279, ISBN 80-248-1001-8, VŠB- Tehniká univerzita Ostrava, Fakulta elektrotehniky a informatiky, 2006 11. Jelínek, J.: Využití vazeb mezi termy ro odoru uživatele WWW. Mezinárodní konferene Znalosti 2005, 9. 11. 2. 2005, Stará Lesná, Slovensko, In: Sborník řísěvků 4. ročníku konferene Znalosti 2005,. 218-225, VŠB-TUO FEI Ostrava, ISBN: 80-248-0755-6 12. Minkov, Einat; Wang, Rihard; Cohen, William: Extrating Personal Names from Email: Alying Named Entity Reognition to Informal Text. In: Proeedings of Human Language Tehnology Conferene and Conferene on Emirial Methods in Natural Language Proessing (HLT/EMNLP), Vanouver, Otober 2005, Assoiation for Comutational Linguistis 13. Named entity reognition - Wikiedia, the free enyloedia, In: htt://en.wikiedia.org/wiki/named_entity_reognition, Otober 2007 14. Stevenson, M.; Gaizauskas, R.: Using orus-derived name lists for named entity reognition. In: Pro. of ANLP, Seattle, 2000. 15. WordNet, In: htt://www.ogsi.rineton.edu/~wn/, Otober 2007. 16. Xia, Jingfeng: Personal name identifiation in the raties of digital reositories. In: Program: Eletroni Library & Information Systems, 2006, 40(3):. 256-267

100 Jiří Jelínek Annotation: Identifiation of the Themati Soial Nets In the soe of this rojet we roosed a roedure of identifiation of the themati soial nets by means of the analysis of outut from web searh engines after entering a seifi seialized area or a seifi keyword. A method of identifiation of ersonal names was onstruted and the ossibilities of automation of this ativity were tested. Then the attention was devoted to the sense reognition of these names and deleting of unwanted duliates. Another art of the rojet was the reation of a mehanism for detetion of seifi relationshis amongst the individuals. Different forms of visualization of these networks were also studied. The roosed artile desribes together with the above stated methods the ratial solution based on them and results obtained from its testing in use.