Identifikace tématických sociálních sítí sítí

Rozměr: px
Začít zobrazení ze stránky:

Download "Identifikace tématických sociálních sítí sítí"

Transkript

1 Identifikae tématikýh soiálníh sítí sítí Jiří Jelínek 1 1 Katedra Katedra managementu managementu informaí, informaí, FM, Vysoká FM, škola Vysoká ekonomiká, škola ekonomiká, Jarošovská 1117/II, Jarošovská /II, 01, Jindřihův , Jindřihův Hrade Hrade Abstrakt. V rámi tohoto rojektu byl navržen ostu identifikae tématikýh soiálníh sítí omoí analýzy výstuů webovýh vyhledávaíh systémů o zadání určité odborné oblasti či seifikého klíčového slova. Byla vytvořena metoda identifikae vlastníh jmen osob a byly zkoumány možnosti automatizae této činnosti. Dále byla ozornost věnována významovému zřesnění těhto jmen a odstranění říadnýh duliit. Součástí rojektu bylo také vytvoření mehanizmu ro odhalování odbornýh vazeb mezi jedini. Zkoumány byly i různé formy vizualizae výslednýh sítí. Předkládaný řísěvek oisuje kromě výše uvedenýh metod i z nih vyházejíí raktiké řešení a výsledky získané jeho testováním v raxi. Klíčová slova: WWW, grafy, soiální sítě, NER, deteke vazeb mezi termy 1 Úvod Hlavním motivem sesání tohoto řísěvku je rezentovat metody a ostuy oužitelné v softwarovém nástroji umožňujíím, okud možno automatiky, identifikovat a následně zobrazit odborné vazby mezi jednotlivi na základě obeně dostunýh dat získanýh webovými vyhledávači. Takový nástroj by mohl výrazně omoi ři orientai kdo je kdo v dané oblasti, bylo by možné identifikovat významné jedine a ři odborné rái se soustředit na informae od ramene. Vyhledávání vlastníh jmen osob v rostředí WWW a jejih další zraování není říliš rozšířenou službou. Je samozřejmě možné využít ři hledání konkrétního jména standardní vyhledávaí systémy, otázkou však je, nakolik jsou získané výsledky raktiky oužitelné, jestliže na dotaz John Smith dostaneme nař. vyhledávačem Google 261 milionů odkazů. Také je otázkou, zda rávě takto oložený dotaz nejlée vystihuje otřeby uživatele a oskytne odovědi, které uživatel he získat. Většinou nás nezajímají ani tak jména samotná, jako síše jména v určitém kontextu (oblasti), který lze ro účely vyhledávání harakterizovat vybranými klíčovými slovy. Dotaz tedy častěji směřuje síše na zvolenou oblast, ve které nás zajímají vlastní jména osob s ní sojenýh a vztahy těhto osob. Právě na základě výše uvedené úvahy byl vytvořen tento řísěvek. S ostuem raí se však ukázalo, že oblast identifikae a zraování vlastníh jmen osob vyžaduje širší zkoumání a také, že výsledky mohou být užity ři odoře širšího sektra činností, než byl ůvodní ředoklad. Válav Snášel (Ed.): Znalosti 2008, , ISBN FIIT STU Bratislava, Ústav informatiky a softvérového inžinierstva, 2008.

2 Identifikae tématikýh soiálníh sítí 91 Přísěvek je dále rozdělen do několika kaitol. Druhá kaitola harakterizuje současný stav v ředmětné oblasti výzkumu. Třetí kaitola se věnuje navrhovaným ostuům a metodám ro deteki vlastníh jmen osob, zřesnění jejih významu a deteki vazeb mezi osobami. Čtvrtá kaitola oisuje arhitekturu navrženého rototyu a rezentuje dosažené výsledky. Kaitola átá shrnuje elý rojekt a nastiňuje další ostu. Šestá kaitola je ak závěrem řísěvku. 2 Současný stav Celý roblém deteke a následného zraování vlastníh jmen osob ro výše osaný účel lze rozdělit do několika fází, které budou diskutovány dále. První z nih je deteke vlastníh jmen osob. Tato oblast je obvykle označována jako NER (Named Entity Reognition), EI (Entity Identifiation) či EE (Entity Extration) a její historie sahá do 90. let minulého století. Přístuů k řešení tohoto úkolu je několik: 1. Metody NLP jsou jednou z rvníh metod deteke vlastníh jmen osob. Jejih základem je obvykle syntaktiká analýza větné stavby textu a užití ravidel ro identifikai jmen. Velmi odstatnou součástí detekčníh mehanizmů je také sledování velkýh očátečníh ísmen slov. To však může některé informační zdroje diskriminovat (některé zravodajské agentury nař. šíří zrávy sané ouze velkými ísmeny). Detekovat lze nejen vlastní jména osob, ale i míst a organizaí [3]. Příkladem užití gramatikýh ravidel může být nař. tagger ANNIE [1], který je součástí balíku GATE nebo systémy FreeLing [5] či NE lassifier [3]. 2. Druhou možností je statistiký řístu. Užity mohou být běžně užívané klasifikátory, zejména naivní bayesovský klasifikátor. Metoda vyhází z dostatečně obsáhlé trénovaí množiny. Na základě ručního ohodnoení říkladů z této množiny je ři následujíím výskytu stejného termu vyočtena ravděodobnost jeho říslušnosti k ozitivně či negativně hodnoeným říkladům. 3. Podobná metoda vyhází z existene rozsáhlýh slovníků vlastníh jmen osob. Od statistikého řístuu se liší ředevším existení ouze ozitivně hodnoenýh říkladů a římým orovnáváním zkoumaného termu se slovníkem. Tento ostu je osán nař. v [14]. Problémem je zde získání dostatečně obsáhlýh slovníků. 4. Využití kontextu je rovněž zajímavý řístu k deteki vlastníh jmen osob. Je založen na zkoumání bezrostředního okolí daného slova či sousloví [12], řičemž na slova blízká zkoumanému termu může být ulatněn statistiký řístu, na základě kterého je ak danému termu řiřazena ravděodobnost, s jakou se může jednat o vlastní jméno osoby. Fáze zřesnění významu je v říadě vlastníh jmen osob dosti komlikovaná a dosahované výsledky nejsou nikdy storoentní. Hlavní úkoly jsou zde následujíí: 1. Samostatným roblémem je čištění vstuníh dat, ve kterýh mohou být gramatiké hyby a řeisy. Jednou z možností je orovnávání jmen na

3 92 Jiří Jelínek základě fonetiké hodnotíí funke a užití rozsáhlýh slovníků ro koreki hyb. 2. Odlišit osoby se stejným vlastním jménem tento úkol je obvykle řešen s omoí dolňkové informae. Tou může být nař. tématiká oblast, se kterou je osoba sojena, v říadě autorů název jejih ublikae, informae o geografiké oloze, atd. Samotné odlišení (klasifikae) je ak realizováno klasifikátory raujíími na základě strojového učení. Nař. v [8] je jako dolňkový údaj oužit název ublikae dané osoby a ro klasifikai je zvolen naivní bayesovský klasifikátor nebo Suort Vetor Mahines (SVM). Tato fáze nemůže být zela oddělena od následujíí. 3. Dále je nutné identifikovat vlastní jména osob s různou formou záisu řešení často vyhází z čistě syntaktikýh ravidel definujííh ro dvě formy záisu zůsob jejih orovnání a ohodnoení a uřednostňovaný výstu. Preferován může být jak o nejkratší záis daný říjmením a říadně iniiály rvního křestního jména (který je vlastně nejobenějším označením jedine) nebo záis o nejúlnější obsahujíí lná znění všeh jmen. Dalším krokem je deteke vazeb mezi osobami identifikovanými svými vlastními jmény. Pokud si uvědomíme, že tento roes je ouze seiálním říadem deteke vazeb mezi termy, je možné ři řešení vyházet rávě z této širší oblasti. Metoda navržená v [11] nař. detekuje vazby termů na základě jejih současného výskytu v dokumenteh. Ohodnoení vazeb a ulatnění rořezávaíh tehnik je založeno na odmíněnýh ravděodobnosteh jejih výskytu (každá vazba je háána jako orientovaná a je tedy ohodnoena v obou směreh). V [11] jsou uvedeny i další navazujíí ostuy možného využití takto získanýh dat o vztazíh termů. 3 Navržené ostuy Při návrhu metod deteke a zraování vlastníh jmen osob bylo hlavním ílem definovat komletní metodiku elého roesu tak, aby na jejím základě mohla být vytvořena oužitelná alikae. Celý ostu byl rozdělen do následujííh fází: 1. Deteke jmen osob 2. Zřesnění významu (identifikae) 3. Deteke vazeb mezi jmény Jednotlivé fáze budou nyní robrány odrobněji. 3.1 Deteke vlastníh jmen osob Úkol, který je nutné v této části vyřešit, lze definovat takto: mějme zadaný rostý text obsahujíí vlastní jména osob, ožadovaným výstuem je seznam těhto jmen. V oisovaném říadě je vstuem WWW stránka, jejíž URL je buď římo zadané nebo získané jako součást výstuu vyhledávače. Samotná deteke jmen robíhá v několika dále osanýh fázíh. První z nih je oužití masky na vstuní text. Tento krok odhaluje možné kandidáty na vlastní jména osob. Příustné formy záisu jsou v zásadě dvě: jméno1 jméno2

4 Identifikae tématikýh soiálníh sítí 93 říjmení nebo říjmení, jméno1 jméno2. Na oziíh křestníh jmen mohou být rovněž ouze iniiály, druhé křestní jméno může být vyneháno. Paralelně s tímto zůsobem deteke robíhá identifikae NLP s omoí balíku Named Entity Tagger [3], jehož výstu je sloučen s výstuy výše uvedené metody. Kandidáti z takto získané množiny jsou následně ohodnoeni několika různými tehnikami. Cílem hodnoení je kvantifikovat šani, s jakou je kandidát skutečně vlastním jménem osoby (čím vyšší kladné hodnoení, tím větší šane, že jde o vlastní jméno osoby). První část ohodnoení vyhází z kontroly křestníh jmen. Pro tento krok byla ze serveru [2] extrahována běžně oužívaná křestní jména ro elou škálu jazyků (angličtina, němčina, čeština, arabština, čínština, atd.). Dalším zdrojem referenčníh dat byla databáze DataBase systems and Logi Programming (DBLP) [4] obsahujíí bibliografiké informae o obsahu hlavníh časoisů a sborníků zaměřenýh na výše uvedenou oblast. Vytvořená databáze (a unikátníh jmen) je ak užita ke kontrole křestníh jmen, nalezení kandidáta v databázi vede ke zvýšení jeho kladného ohodnoení o hodnotu k f. Stejný ostu je ulatněn rovněž ři kontrole říjmení. Celý systém je zaměřen na angličtinu, roto byl za základ referenční databáze říjmení oužit výstu sčítání obyvatel USA, kde jsou nejčastější říjmení uvedena [6]. Tento zdroj byl dále dolněn z [9], kde jsou uvedena říjmení studentů amerikýh univerzit z roku 2003 a z DBLP [4]. Získaná databáze obsahuje a říjmení a identifikae kandidáta zvýšila jeho ohodnoení o koefiient k l. Další formou ohodnoení je využití databáze odstatnýh jmen z rojektu WordNet [15] obsahujíí a unikátníh oložek. Ty jsou orovnávány s říjmeními kandidátů. V říadě, že říjmení se nevyskytuje ve WordNetu, je zvýšeno ozitivní hodnoení kandidáta o koefiient k w. Tato kontrola je založena na úvaze, že slova bez reálného významu mohou být říjmeními. Další metody ohodnoení jsou založeny na statistikém riniu učení z ředhozíh rozhodnutí. Systém uhovává jak ozitivně klasifikované kandidáty, ze kterýh se stávají regulérní termy, tak i negativně klasifikované říady. Každý nový kandidát je ohodnoen na základě výočtu koefiientu k s k sm n =, (1) + kde je očet ozitivně hodnoenýh výskytů daného jména, n očet negativně hodnoenýh říadů a k sm je volitelný koefiient odrážejíí váhu tohoto hodnotíího kritéria. Tento systém hodnoení lze samostatně ulatnit jak na říjmení, tak na křestní jména. Poslední kritérium vyhází z modelu osaného v [12] a ostuu uvedeného v ředhozím odstavi. Hodnoení kandidáta je zvýšeno o hodnotu k odle výskytu slov v jeho bezrostředním okolí, které sahá 3 slova řed a tři slova za říslušného kandidáta. Výstuem fáze deteke je seznam kandidátů, u nihž je ro výočet jejih výsledného ohodnoení oužit následujíí vzore: h = k + k + k + k + k (2) f l w n s

5 94 Jiří Jelínek Vyjádření vah jednotlivýh členů je dáno již samotnou volitelnou hodnotou jednotlivýh koefiientů (výjimkou jsou k s a k, jejihž váhy jsou dány maximálními hodnotami k sm a k m ). Výsledné ohodnoení by jistě bylo možné vyjádřit i jiným vztahem, výběr otimálního výočtu a nastavení koefiientů mohou být ředmětem dalšího výzkumu. Seznam kandidátů může být následně rezentován uživateli k ruční klasifikai nebo ohodnoen automatiky. První možnost je odstatná zejména v očátečníh fázíh, kdy není k disozii dostatek klasifikovanýh říkladů vlastníh jmen. Později již lze využít klasifikai na základě uživatelem zadanýh mezníh hodnot hodnoení h min a h max. V říadě h > h max je kandidát ovažován za vlastní jméno, okud h < h min, je jeho výsledné hodnoení negativní. S říady, kdy latí h min < h < h max, lze naložit různě. Vhodnou estou se zdá být jejih vymazání ze seznamu kandidátů nebo jejih ruční hodnoení. Výstuem elé části deteke vlastníh jmen osob je tedy seznam klasifikovanýh kandidátů, z nihž jsou dále zraovávány ouze ozitivní říady, (detekovaná vlastní jména). 3.2 Zřesnění významu Metoda zřesnění významu se zaměřuje ředevším na identifikai osob a seleki jediné formy záisu vlastního jména ro danou osobu, řičemž oba úkoly jsou řešeny současně. Nejrve jsou orovnávány různé formy záisu vlastníh jmen a je testováno, zda označují stejnou osobu. Za kritérium shody je bráno stejné říjmení a shoda křestníh jmen (rvníh) nebo jejih iniiálů. Z takto zjištěnýh možnýh záisů jednoho jména je vybrán ten, který je nejúlnější (okud možno lné znění všeh jmen). Problém identifikae osoby je zjednodušeně řešen s omoí dolňkové informae, kterou tvoří téma (harakterizované klíčovým slovem nebo slovy), ke kterému má daná osoba vztah (o jehož zadání do vyhledávače bylo dané jméno získáno). Při výběru referované formy záisu je roto tento údaj brán v úvahu a orovnávány jsou jen termy z jedné tématiké oblasti. Předokladem tohoto řešení je, že v dané oblasti se vyskytuje ouze jedna osoba s jedinečnou kombinaí jméno - říjmení. 3.3 Identifikae souvislostí mezi termy Identifikae souvislostí mezi termy je rováděna na základě výskytu těhto termů solečně v jednotlivýh vstuníh dokumenteh (WWW stránkáh). Použitý algoritmus vyhází z ostuu uvedeného v [11] s drobnými úravami. Dále uvedené výočty jsou vždy vztaženy k množině dokumentů S vzniklé sjednoením WWW stránek z tématikýh skuin definovanýh výrazy zadanými ro jejih vyhledání do vyhledávače Google. Váha konkrétníh termů se tak může lišit odle arametrů vyhledávání a je definována jako

6 Identifikae tématikýh soiálníh sítí 95 w is = K S k= 1 K S k= 1 n ik k, (3) kde w is je váha termu t i vzhledem k množině tématikýh skuin S, K S očet tématikýh skuin sjednoenýh v S, n k očet dokumentů v dané tématiké skuině a ik očet dokumentů s termem t i v tématiké skuině k. Podle [11] tvoří termy s w is > ráh množinu významnýh termů V, která slouží za základ dalšímu ostuu. Na té jsou dále definovány dvojie termů ( t i, t j ). Pro každou takovou dvojii a ro množinu S lze vyočítat výraz ijs = K S k= 1 2 K S k= 1 ( ik ijk + jk ), i j (4) kde K S je očet tématikýh skuin sjednoenýh v S, ijk očet dokumentů se současným výskytem termů t i i t j v tématiké skuině k a ik, res. jk jsou očty dokumentů ve skuině k, kde se vyskytuje term t i, res. t j. Pro stanovení významnosti vazby mezi termy t i a t j byla zvolena hodnota h = k( w + w ) + (1 k) (5) ijs is js Tato hodnota harakterizuje význam vazby mezi osobami s vlastními jmény t i a t j v dané množině tématikýh skuin S. Vztah je založen na síle vazby ijs, vyházejíí ze solečného výskytu termů t i a t j, a na významnosti uvedenýh termů. Volitelný koefiient k z intervalu <0,1> umožňuje zdůraznit složku vyházejíí z významnosti termů (k 1) nebo složku založenou na ohodnoení dané vazby (k 0). Pro zařazení vazby do výstuu musí být h ijs > m, kde m je uživatelem definovaná mezní hodnota. Výsledkem této fáze je seznam dvoji termů, které se vyskytují solečně včetně ohodnoení jejih vazby hodnotou h ijs. K vizualizai dat získanýh výše uvedenými ostuy je oužita knihovna Grahviz [7]. Z dostunýh algoritmů ro tvorbu rozvržení grafu byl vybrán algoritmus NEATO. Základním výstuem vizualizae je zobrazování termů a jejih vazeb z vybranýh tématikýh oblastí. Vzdálenost jednotlivýh uzlů byla nastavena úměrně hodnotě 1/ h ijs, barva uzlů odle váhy termů w is. ijs 4 Arhitektura rototyu a dosažené výsledky Výše uvedené ostuy byly imlementovány do rototyu webové alikae nasané v PHP a MySQL. Ta umožňuje realizovat všehny uvedené činnosti: 1. Načtení výstuů vyhledávače Google ro zadané téma a s volitelným očtem odkazů ve výstuu vyhledávač Google je zde oužit ro nalezení relevantníh stránek k danému tématu. Volit lze rovněž mezi dvěma zůsoby

7 96 Jiří Jelínek vyhledávání (fráze či seznam slov). Nalezené stránky systém následně načítá a detekuje v nih kandidáty na vlastní jména osob. 2. Načtení zadaného URL a jeho řidání k zadanému tématu stejná činnost jako v ředhozím bodu, ale stránka není vyhledávána, nýbrž zadána římo. 3. Automatiké ohodnoení nalezenýh kandidátů ostuy uvedenými výše v tomto řísěvku. 4. Volitelné zobrazení kandidátů ro klasifikai uživatelem je rezentován seznam kandidátů s jejih ohodnoením a výstuem řednastaveným odle kritérií h min a h max. Tato činnost není rováděna v automatikém režimu. 5. Prezentae seznamu dosud analyzovanýh témat s očtem analyzovanýh stránek ke každému z nih. 6. Analýza vstuů a následné zobrazení síťového grafu souvislostí mezi termy kritériem ro zařazení dané vazby je h ijs > m (viz výše). Jednotlivé uzly (osoby) mohou být barevně odlišené odle hodnot w is. 7. Grafiké zobrazení vazeb vybraného jedine odle říjmení toho lze zvolit kliknutím na ředhozí graf tématiké oblasti. V říadě shody říjmení jsou vysány všehny vyhovujíí termy. 35,00 30,00 25,00 e [%] 20,00 15,00 10,00 en e ed es 5,00 0,00-1,00-0,50 0,00 0,50 1,00 1,50 2,00 h m Obr. 1. Graf závislosti hyb e d, e, e n a e s na hodnotáh h m Aby alikae umožňovala rovněž automatizovaný režim rovozu, kdy uživatel zadá seznam ožadovanýh témat k analýze a systém je zrauje, je nutné stanovit uživatelsky zadané koefiienty. Ve fázi deteke vlastníh jmen jde zejména o hodnoty h min a h max. Podle jejih volby jsou ak hodnoeni jednotliví kandidáti, řičemž jejih vlastní hodnoení h je závislé na koefiienteh k ro jednotlivé metody hodnoení. Volba k f, k l, k w, k sm, k m musí být rovedena tak, aby ozitivně a negativně klasifikovaní kandidáti měli maximálně odlišné hodnoty h ři minimální hybě

8 Identifikae tématikýh soiálníh sítí 97 klasifikae. Pro zjednodušení bylo ři exerimenteh stanoveno h min = h max, takže bylo nutné nalézt ouze jedinou mezní hodnotu h m. Pro nalezení její otimální velikosti na základě již klasifikovanýh termů byly ro h m z vybraného intervalu vyočteny hodnoty hyb e n+ n =, n e =, (6) kde n+ je očet negativně hodnoenýh říkladů s h > h m, n elkový očet negativně hodnoenýh říkladů, - je očet ozitivně hodnoenýh říkladů s h < h m a elkový očet ozitivně hodnoenýh říkladů. h m může být stanovena různým zůsobem. Jednou z variant je stanovení h m odle minimální hodnoty výrazu e d = e e n. Tento ostu zaručuje stejnou velikost hyb e a e n. Jinou možností je nař. oužití kritéria minimální souhrnné hyby e s = e + e n. Výběr nejvhodnější metody stanovení h m bude ředmětem dalšího výzkumu. Grafy růběhů hyb ro vybrané nastavení koefiientů k f, k l, k w, k sm, k m jsou uvedeny na obr.1. Graf naznačuje, že vhodným nastavením může být h m = 0,25 ři volbě odle hodnot e d nebo h m = -0,1 ři volbě odle e s. S osaným systémem byly rovedeny rvní exerimenty. Systém nyní obsahuje data z 397 analyzovanýh WWW stránek říslušnýh k 17 různým tématům. Počet klasifikovanýh termů dosáhl 16671, z toho 3079 ozitivně hodnoenýh. Z dosaženýh výsledků vylývá, že oužité metody jsou zela životashoné a mohou sloužit jako základ ro další výzkum a vývoj. Jako říklad výstuu je na obr. 2 uveden graf identifikované tématiké sítě ro téma linux založené na analýze 51 webovýh stránek. Obr. 2. Identifikovaná tématiká síť ro téma linux

9 98 Jiří Jelínek Barva termů na obrazove (odstín v tisku) odovídá jejih váze, délky hran byly v zadání grafu voleny neřímo úměrně síle říslušné vazby, ož vykreslovaí algoritmus resektoval v rámi možností 2D zobrazení. 5 Shrnutí a další ostu Na základě rovedenýh exerimentů lze konstatovat, že alikae vystavěná na zde osanýh metodáh identifikae tématikýh soiálníh sítí oskytuje zajímavé výsledky a vytváří vhodný základ ro další výzkum v této oblasti. Další ostu se soustředí na některá vylešení, která by mohla možná užití alikae dále rozšířit a zřesnit dosahované výsledky. Mezi ně atří naříklad rozšíření vstuníh imortníh filtrů. V současné době je rimárním zdrojem dat vyhledávač Google, a to ředevším z důvodu zajištění obeného zdroje informaí. Počítá se však s imlementaí dalšíh imortníh filtrů ro seiální data. Jako nejzajímavější se jeví užití dat z itačníh serverů. V oblasti deteke vlastníh jmen by bylo vhodné se zamyslet nad ostuy stanovení vhodnýh hodnot k f, k l, k w, k sm, k m. Protože jde v odstatě o otimalizační úlohu, možnou estou by zde bylo užití genetikýh algoritmů. Na základě dalšíh exerimentů bude též nutné se dále zabývat metodikou automatizovaného stanovení mezníh hodnot h min a h max (event. h m ). Pro zřesnění významu nalezenýh termů by bylo užitečné uvažovat o vývoji a imlementai dokonalejšíh tehnik založenýh na okročilýh ostueh analýzy získanýh dat. Pro zobrazení výstuů by mohlo být užito 3D zobrazení omoí jazyka VRML, které je osáno nař. v [10]. 6 Závěr Posané teoretiké metody informačními tehnologiemi odorované identifikae tématikýh sítí jsou dalším řísěvkem do aktuální oblasti tvorby a deteke oteniálníh soiálníh sítí. Navrhovaný rototy alikae je ak ukázkou jejih konkrétního ulatnění a získané výstuy mohou být římo užity v raxi a to nejen v oblasti vědekého výzkumu, ale všude tam, kde je otřeba identifikovat tématiky definované soiální sítě (nař. v oblasti finančnitví, v kriminalistie, ekonomie, atd.). Postu byl raktiky otestován, řičemž objevil významné vazby v danýh tématikýh oblasteh. V současné době robíhají další exerimenty zaměřené ředevším na výzkum modifikaí a rozšíření uvedené metodiky.

10 Identifikae tématikýh soiálníh sítí 99 Referene 1. Annie Named Entity Tagger, In: htt://www.mediastyle.om/index.js?folderpk=754, Otober Behind the Name - the Etymology and History of First Names, In: htt://www.behindthename.om/, Otober CCG: Software Named Entity Tagger. In: htt://l2r.s.uiu.edu/~ogom/asoftware.h?skey=ne#tools, Otober DBLP Bibliograhy, In: htt://dbl.uni-trier.de/xml/, Otober FreeLing Home Page. In: htt://garraf.esevg.u.es/freeling/, Otober Frequently Ourring Names from the 1990 Census, In: htt://www.ensus.gov/genealogy/www/freqnames.html, Otober Grahviz, In: htt://www.grahviz.org/, Otober Han, H.; Giles, L.; Zha, H.; Li, C.; Tsioutsiouliklis, K.: Two suervised learning aroahes for name disambiguation in author itations. In: Proeedings of the 4th ACM/IEEE-CS Joint Conferene on Digital Libraries (Tuson, June 2004). JCDL '04. ACM Press, New York, 2004, ICU Projet at the Data Privay Laboratory, In: htt://rivay.s.mu.edu/datarivay/rojets/iu/datainfo.html, Otober Jelínek J.; Kunčar D.; Přibil J.: Vizualizae textovýh dat omoí grafů, Konferene Znalosti 2006, Hrade Králové, únor 2006, In: Paralič J., Dvorský J., Krátký M. (eds.): Znalosti 2006, , ISBN , VŠB- Tehniká univerzita Ostrava, Fakulta elektrotehniky a informatiky, Jelínek, J.: Využití vazeb mezi termy ro odoru uživatele WWW. Mezinárodní konferene Znalosti 2005, , Stará Lesná, Slovensko, In: Sborník řísěvků 4. ročníku konferene Znalosti 2005, , VŠB-TUO FEI Ostrava, ISBN: Minkov, Einat; Wang, Rihard; Cohen, William: Extrating Personal Names from Alying Named Entity Reognition to Informal Text. In: Proeedings of Human Language Tehnology Conferene and Conferene on Emirial Methods in Natural Language Proessing (HLT/EMNLP), Vanouver, Otober 2005, Assoiation for Comutational Linguistis 13. Named entity reognition - Wikiedia, the free enyloedia, In: htt://en.wikiedia.org/wiki/named_entity_reognition, Otober Stevenson, M.; Gaizauskas, R.: Using orus-derived name lists for named entity reognition. In: Pro. of ANLP, Seattle, WordNet, In: htt://www.ogsi.rineton.edu/~wn/, Otober Xia, Jingfeng: Personal name identifiation in the raties of digital reositories. In: Program: Eletroni Library & Information Systems, 2006, 40(3):

11 100 Jiří Jelínek Annotation: Identifiation of the Themati Soial Nets In the soe of this rojet we roosed a roedure of identifiation of the themati soial nets by means of the analysis of outut from web searh engines after entering a seifi seialized area or a seifi keyword. A method of identifiation of ersonal names was onstruted and the ossibilities of automation of this ativity were tested. Then the attention was devoted to the sense reognition of these names and deleting of unwanted duliates. Another art of the rojet was the reation of a mehanism for detetion of seifi relationshis amongst the individuals. Different forms of visualization of these networks were also studied. The roosed artile desribes together with the above stated methods the ratial solution based on them and results obtained from its testing in use.

1 ROZHODOVÁNÍ V ŘÍZENÍ

1 ROZHODOVÁNÍ V ŘÍZENÍ 1 ROZHODOVÁNÍ V ŘÍZENÍ Rozhodování je ovažováno za jednu ze základních aktivit ři racionálním řešení nejenom řídících roblémů, řitom kvalita rozhodování zásadním zůsobem ovlivňuje výslednou kvalitu řídícího

Více

Identifikace uživatelů sociálních sítí a digitálních knihoven Social Network and Digital Library User s Identification

Identifikace uživatelů sociálních sítí a digitálních knihoven Social Network and Digital Library User s Identification VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Identifikace uživatelů sociálních sítí a digitálních knihoven Social Network and Digital Library User s Identification

Více

SROVNÁNÍ VYBRANÝCH DĚJŮ V REÁLNÉM PLYNU MODELY, ANIMACE

SROVNÁNÍ VYBRANÝCH DĚJŮ V REÁLNÉM PLYNU MODELY, ANIMACE Záadočeská univerzita v Plzni Fakulta edagogická Dilomová ráce SROVNÁNÍ VYBRANÝCH DĚJŮ V REÁLNÉM PLYNU MODELY, ANIMACE COMPARISON OF SELECTED EFFECTS IN REAL GAS - MODELS, ANIMATIONS Jiří Prušák Plzeň

Více

Modelování dynamiky informačních toků v sociálních sítích

Modelování dynamiky informačních toků v sociálních sítích Modelování dynamiky informačních toků v sociálních sítích Jiří Jelínek Jihočeská univerzita v Českých Budějovicích, Přírodovědecká fakulta, Branišovská 3, 370 05 České Budějovice, Česká Republika jelinek.fm@gmail.com

Více

Odborné a vědecké časopisy v oboru automatizace

Odborné a vědecké časopisy v oboru automatizace Odborné a vědecké časopisy v oboru automatizace Professional and scientific journals in the field of automation Josef Slovák Bakalářská práce 2010 UTB ve Zlíně, Fakulta aplikované informatiky, 2010 4

Více

Natalya Chernykh. Bakalářská práce

Natalya Chernykh. Bakalářská práce Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze Natalya Chernykh Analýza textu (text mining) pomocí vybraného softwaru Bakalářská práce

Více

BAKALÁŘSKÁ PRÁCE. Klára Jelenová. Sbírka úloh z finanční matematiky

BAKALÁŘSKÁ PRÁCE. Klára Jelenová. Sbírka úloh z finanční matematiky Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Klára Jelenová Sbírka úloh z finanční matematiky Katedra ravděodobnosti a matematické statistiky Vedoucí bakalářské ráce: RNDr.

Více

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. Fakulta elektrotechnická. Katedra měření BAKALÁŘSKÁ PRÁCE. Aerometrický systém pro malá letadla

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. Fakulta elektrotechnická. Katedra měření BAKALÁŘSKÁ PRÁCE. Aerometrický systém pro malá letadla ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Katedra měření BAKALÁŘSKÁ PRÁCE Aerometrický systém ro malá letadla Praha, červen 006 Zadání (vložit) Prohlášení Prohlašuji, že jsem svou bakalářskou

Více

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky. Automatická klasifikace textových dokumentů

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky. Automatická klasifikace textových dokumentů Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky Bakalářská práce Automatická klasifikace textových dokumentů Plzeň 2012 Veronika Černá Prohlášení Prohlašuji,

Více

TEORETICKÝ MODEL SYSTÉMU PRO OPTIMALIZOVANÝ PROCES VÝBĚRU PROGRAMOVÉHO VYBAVENÍ

TEORETICKÝ MODEL SYSTÉMU PRO OPTIMALIZOVANÝ PROCES VÝBĚRU PROGRAMOVÉHO VYBAVENÍ ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS Ročník LVIII 25 Číslo 3, 2010 TEORETICKÝ MODEL SYSTÉMU PRO OPTIMALIZOVANÝ PROCES VÝBĚRU PROGRAMOVÉHO VYBAVENÍ J. Rybička, P. Talandová,

Více

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Adam Liška Čištění paralelních dat pro strojový překlad Ústav formální a aplikované lingvistiky Vedoucí bakalářské práce: RNDr.

Více

technická univerzita v liberci Autoreferát disertační práce

technická univerzita v liberci Autoreferát disertační práce technická univerzita v liberci Fakulta mechatroniky, informatiky a mezioborových studií Autoreferát disertační práce Liberec 2009 Mgr. Jiří Vraný technická univerzita v liberci Fakulta mechatroniky, informatiky

Více

ANALÝZA A ŘEŠENÍ SYSTÉMU PRO MONITORING ISIR A VYBRANÝCH REGISTRŮ ARES

ANALÝZA A ŘEŠENÍ SYSTÉMU PRO MONITORING ISIR A VYBRANÝCH REGISTRŮ ARES Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií Studijní program : Aplikovaná informatika Obor: Informační systémy a technologie ANALÝZA A ŘEŠENÍ SYSTÉMU

Více

Vysoká škola ekonomická v Praze

Vysoká škola ekonomická v Praze Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií Studijní program: Aplikovaná informatika Obor: Informační systémy a technologie Diplomant: Vedoucí diplomové

Více

SBORNÍK PŘÍSPĚVKŮ Z LETNÍ ŠKOLY MEZIOBOROVÉ PŘÍSTUPY INFORMATIKY A KOGNITIVNÍ VĚDY

SBORNÍK PŘÍSPĚVKŮ Z LETNÍ ŠKOLY MEZIOBOROVÉ PŘÍSTUPY INFORMATIKY A KOGNITIVNÍ VĚDY SBORNÍK PŘÍSPĚVKŮ Z LETNÍ ŠKOLY MEZIOBOROVÉ PŘÍSTUPY INFORMATIKY A KOGNITIVNÍ VĚDY Fakulta informatiky a managementu Univerzity Hradec Králové Projekt Informační, kognitivní a interdisciplinární podpora

Více

PRINCIPY ZPRACOVÁNÍ HLASU V KLASICKÉ A IP TELEFONII

PRINCIPY ZPRACOVÁNÍ HLASU V KLASICKÉ A IP TELEFONII PRINCIPY ZPRACOVÁNÍ HLASU V KLASICKÉ A IP TELEFONII Doc. Ing. Boris ŠIMÁK, CSc. racoviště: ČVUT FEL, Katedra telekomunikační techniky; mail: simak@feld.cvut.cz Abstrakt: Tento řísěvek si klade za cíl seznámit

Více

Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze. Bakalářská práce.

Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze. Bakalářská práce. Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze Bakalářská práce 2009 Michal Malý Vysoká škola ekonomická v Praze Fakulta informatiky a

Více

Česká zemědělská univerzita v Praze

Česká zemědělská univerzita v Praze Česká zemědělská univerzita v Praze Provozně ekonomická fakulta Katedra informačních technologií Bakalářská práce Optimalizace web site pro vyhledávače Jiří Knechtl 2009 ČZU v Praze Čestné prohlášení Prohlašuji,

Více

Analýza struktury webu a její optimalizace. Jan Koldinský

Analýza struktury webu a její optimalizace. Jan Koldinský České vysoké učení technické v Praze Fakulta elektrotechnická Katedra počítačů Bakalářská práce Analýza struktury webu a její optimalizace Jan Koldinský Vedoucí práce: Ing. David Toth Studijní program:

Více

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O. VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O. Bc. Roman Gažák Návrh internetových stránek s rezervačním systémem Diplomová práce 2013 Návrh internetových stránek s rezervačním systémem Diplomová práce

Více

Univerzita Hradec Králové Fakulta informatiky a managementu. Diplomová práce. 2014 Bc. Pavel KINC, DiS. Univerzita Hradec Králové

Univerzita Hradec Králové Fakulta informatiky a managementu. Diplomová práce. 2014 Bc. Pavel KINC, DiS. Univerzita Hradec Králové Univerzita Hradec Králové Fakulta informatiky a managementu Diplomová práce 214 Bc. Pavel KINC, DiS. Univerzita Hradec Králové Fakulta informatiky a managementu Katedra informatiky a kvantitativních metod

Více

EKONOMICKÉ ZHODNOCENÍ PROVOZU WEBOVÝCH APLIKACÍ

EKONOMICKÉ ZHODNOCENÍ PROVOZU WEBOVÝCH APLIKACÍ EKONOMICKÉ ZHODNOCENÍ PROVOZU WEBOVÝCH APLIKACÍ Petr Rozehnal Klíčová slova: Webová aplikace, webové stránky, přínosy, výdaje, hodnocení, webová analýza, měření. Key words: Web application, web pages,

Více

Systém M-CAST v českém kontextu

Systém M-CAST v českém kontextu 038 Systém M-CAST v českém kontextu Marie Balíková / Národní knihovna ČR / e-mail: marie.balikova@nkp.cz Abstrakt: Vícejazyčný systém agregace informací (M-CAST, Multilingual Content Aggregation System)

Více

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ Ročník LIII 19 Číslo 6, 2005 Využití podnikových informačních systémů dostupných

Více

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky Bakalářská práce Analýza sociální sítě přátel Plzeň 2013 Marek Naggy Originální zadání Místo této stránky

Více

Bakalářská práce Webové stránky laboratoře Allen-Bradley

Bakalářská práce Webové stránky laboratoře Allen-Bradley ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE, FAKULTA ELEKTROTECHNICKÁ Bakalářská práce Webové stránky laboratoře Allen-Bradley Vypracoval: Michal Pilný Vedoucí práce: Ing. Jindřich Fuka - ii - Prohlášení Prohlašuji,

Více

Využití textové analytiky při analýze zákazníků

Využití textové analytiky při analýze zákazníků Využití textové analytiky při analýze zákazníků Kateřina Hawlová Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií nám. W. Churchilla 4, 130 67 Praha 3 Česká

Více

Principy webové analytiky

Principy webové analytiky Principy webové analytiky Web Analytics Principles Bc. Jaroslav Janéska Diplomová práce 2013 I. ABSTRAKT Diplomová práce je zaměřena na principy a aplikaci webové analytiky. Práce se dělí na teoretickou

Více

Interaktivní webové stránky pro testování žáků z matematiky na ZŠ

Interaktivní webové stránky pro testování žáků z matematiky na ZŠ Jihočeská univerzita v Českých Budějovicích Pedagogická fakulta Katedra informatiky BAKALÁŘSKÁ PRÁCE Interaktivní webové stránky pro testování žáků z matematiky na ZŠ Vypracoval: Václav Kandus Vedoucí

Více

Možnosti automatické detekce plagiátů

Možnosti automatické detekce plagiátů VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE Fakulta informatiky a statistiky Katedra informačních technologií Studijní program: Aplikovaná informatika Obor: Informační systémy a technologie Možnosti automatické detekce

Více