Získávání dat z bibliografických databází

Podobné dokumenty
Vyhledávání a orientace ve vědeckých informacích z pohledu citační analýzy

Bibliometrie v praxi. Lucie Boudová

Web of Science. Bibliotheca Academica

Vyhledávání v citační databázi Web of Science (WOS)

Nástroje webu 2.0 pro vědu a výzkum v technických oborech. Mgr. Lenka Němečková Ústřední knihovna ČVUT v Praze

Práce mladého vědce aneb krátká přednáška o metodologii vědy v podmínkách České republiky. Tadeusz Sikora

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2016

Nástroje pro hodnocení vědy a výzkumu od Thomson Reuters. Ing. David Horký Country Manager Central & Eastern Europe david.horky@thomsonreuters.

Podpora informačních služeb scientometrickými postupy a nástroji

8 SEMESTRÁLNÍ PRÁCE VYHLEDÁVÁNÍ A ZPRACOVÁNÍ INFORMACÍ

Impaktované časopisy. Citační index

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2015

Jak využít citační manažery pro spojení publikační činnosti a šedé literatury?

Kde hledat odborné články?

SCOPUS a WEB OF SCIENCE

Nástroje pro správu bibliografických citací

ZOTERO A DALŠÍ POMOCNÍCI VÝZKUMNÍKA Jan Hendl

Web of Science. Přednáška kurzu informační a databázové systémy v rostlinolékařství

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2012

VKLÁDÁNÍ, EDITACE, SPRÁVA ZÁZNAMŮ PUBLIKACÍ V ÚČTU RID POMOCÍ ENDNOTE WEB

Přebírání ohlasů z WoS a Scopus. Josef Klimeš

Citační manager - Zotero. Mgr. Ilona Trtíková

ISI WEB OF SCIENCE - manuál

Bibliografických manažerů je celá řada. Tento materiál popisuje práci s nástrojem zvaným EndNote Basic.

Vložení identifikátorů DOI, UT WOS, UT SCOPUS a PubMed ID do záznamu

CO MOŽNÁ NEVÍTE O INFORMAČNÍCH ZDROJÍCH THOMSON REUTERS DAVID HORKÝ INFOS 2015, STARÁ LESNÁ DUBEN 2015

Mission of NTK s Bibliometrics Support and Services

JHCD JOURNAL AND HIGHLY CITED DATA

Virtuáln. lní knihovny přístup k dokumentům a službám kdykoliv a odkudkoliv

VYHLEDÁVÁNÍ V DATABÁZI WEB OF SCIENCE. Helena Landová Akademická knihovna JU

Základy práce s informačními zdroji

ResearcherID, ORCID a Scopus Author ID v AV ČR. Petra Bártková

EndNote Web. Stručné informace THOMSON SCIENTIFIC

DoplněkCite While You Write pro aplikaci Microsoft Word

Správa účtu ResearcherID (RID)

KFC/CHL Chemická literatura. Rozvrh, Čt 15:00, LP O čem bude předmět, Informační zdroje Odpadá. Obsah Předmětu 9/22/2016

Informační zabezpečení studia na Zahradnické fakultě MENDELU. Elektronické informační zdroje

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2013

1) Jak postupovat při vyhledávání literatury kde začít a jak dál. 2) Jak získat vyhledanou literaturu. 3) Práce s literaturou - zpracování

Seminář pro vedoucí knihoven a SVI ústavů AV ČR

Jak postupovat při vyhledávání literárních zdrojů

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2014

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2011

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna

Bibliometric probes into the world of scientific publishing: Economics first

Elektronické informační zdroje. Dřevařství a příbuzné obory

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2009

Možnosti využití databáze Scopus pro hodnocení vědeckého výkonu. Iva Prochásková Univerzita Pardubice

EBSCO Information Services a více než 60ti letá tradice. Ostrava, Vysoká škola báňská, TU

v kruhu. Proto je nutné si předem ujasnit, jakého druhu je námi požadovaná

BIBLIOMETRIE PRO MĚŘENÍ KVALITY INFORMACÍ

Hodnocení kvality vědecké činnosti v odborných publikacích

PRODUKTY. Tovek Tools

Novinky v e-zdrojích NLK. Adéla Jarolímková, NLK

WEB OF SCIENCE. věda v souvislostech. ČVUT v Praze Josef Jílek Customer Education Specialist

SOUČASNÉ TRENDY VE VĚDĚ A VÝZKUMU

Představení systému. rev (duben 2015)

Bibliometrie v Národní technické knihovně ~ metody, zkušenosti, mise a vize. Mgr. Jakub Szarzec Národní technická knihovna

Ústřední knihovna ČVUT. Mgr. Lenka Němečková PhDr. Marta Machytková Mgr. Věra Pilecká Mgr. Ilona Trtíková

Inovace bakalářského studijního oboru Aplikovaná chemie

Informační zdroje pro studenty edních a vysokých škol

Závěrečná práce. Lucie Daňková. Indikátory v bibliometrických zprávách výzkumných jednotek v rámci pilotního ověření.

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Další zdroje šedé literatury. PhDr. Martina Machátová Moravská zemská knihovna v Brně Tel.:

Nástroje webu 2.0 pro vědu a výzkum v technických oborech

Speciální informační služby pro zdravotníky v Národní lékařské knihovně PhDr. Eva Lesenková, Ph.D. Mgr. Adéla Jarolímková, Ph.D.

Představení systému. rev (únor 2014)

Vědecká literatura a database

Elektronické informační zdroje pro chemické obory. Seminář Agronomická fakulta, MENDELU Ústav chemie a biochemie

Hodnocení výsledků výzkumu, vývoje a inovací, jejich evidence a správa v. Jiří Stöhr

OPUS vzdělanostní síť k výrobním technologiím. Vyhledávání v databázi Web of Science (WoS)

Prameny odborné literatury - zdroje

VYUŽÍVÁNÍ ELEKTRONICKÝCH INFORMAČNÍCH ZDROJŮ Mgr. Olga Halamová

ResearcherID. EXPORT ZÁZNAMŮ PUBLIKACÍ Z ASEP DO RID formát RIS

CSA Library School Program RefWorks v ČR. Eva Marvanová Národní knihovna ČR

Doporučení k hodnocení habilitačních řízení a řízení ke jmenování profesorem

KFC/COM Vědecká komunikace

Rešeršní služby v Ústřední knihovně ČVUT

Indexovaná periodika citační index. Renáta Přichystalová

The bridge to knowledge 28/05/09

Jakub Szarzec Lead Researcher, Bibliometrics Working Group National Library of Technology

Informační podpora, hodnocení vědy a výzkumu Institutu celoživotního vzdělávání

BMOF011 Aplikace MS Office. Word 2016 Lekce 4 Bibliografie. Matěj Karolyi IBA LF MU,

Prameny odborné literatury - zdroje

Prameny odborné literatury

Elektronické informační zdroje na MENDELU pro oblast práva

Leady & MERK Integrace Microsoft Dynamics CRM s aplikacemi Leady a MERK

ASEP 2018 podzimní setkání zpracovatelů

XML jako prostředek pro citování informačních zdrojů

Dostupnost elektronických informačních zdrojů na ČVUT (materiál pro poradu proděkanů pro vědeckou a výzkumnou činnost dne

Elektronické zdroje Národní technické knihovny

Zahraniční zdroje šedé literatury 3. PhDr. Martina Machátová Moravská zemská knihovna v Brně Tel.:

S ohledem na čistotu dat v těchto databázích (WoS, SCOPUS, apod.) silně doporučujeme používat jako optimální formu (příklad):

Co je (staro)nového v DSpace

PŘÍRUČKA K PRÁCI S DATABÁZÍ CAB REVIEWS

Podpora využívání elektronických informačních zdrojů na ČVUT Ilona TRTÍKOVÁ

Eva BRATKOVÁ. INFORUM 2006 : 12. konference o profesionálních informačních

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Transkript:

Dalibor Fiala Katedra informatiky a výpočetní techniky Západočeská univerzita v Plzni Univerzitní 8, 306 14 Plzeň dalfia@kiv.zcu.cz Abstrakt. Známé bibliografické databáze splňují několik funkcí a mohou v zásadě sloužit jako vyhledávače odborných publikací, citační indexy nebo kalkulačky bibliometrických indikátorů. Mezi nejznámější z nich patří Web of Science, Scopus, ACM Digital Library, DBLP, CiteSeer X a Google Scholar. Větší množství dat z těchto databází je možno s úspěchem použít mj. pro bibliometrická měření, analýzu citačních sítí a sítí spolupráce a pro vizualizaci produktivity a kvality vědeckého výzkumu. Tato data lze v některých případech získat pouze ručně, ale v jiných i automatizovaně. V tomto příspěvku si uvedeme přehled bibliografických databází a možnosti získávání dat z nich a podrobněji se zaměříme na databáze Web of Science a Scopus. Klíčová slova: WoS, Scopus, DBLP, CiteSeer, ACM DL, Google Scholar. 1 Úvod V tomto příspěvku budeme kvůli zjednodušení nazývat bibliografickou databází každý systém umožňující v různé míře vyhledávání odborných publikací, poskytování bibliografických informací o nich, procházení referencí a citací a přístup k jejich abstraktům nebo dokonce plným textům. V zásadě je tedy podle funkcionality můžeme rozdělit do tří vzájemně se nevylučujících skupin: vyhledávače odborných publikací, citační indexy a kalkulátory bibliometrických indikátorů. Databáze v první skupině umožňují typicky vyhledávání mj. v názvech článků, jménech autorů i jejich adresách, klíčových slovech, abstraktech a někdy i plných textech. Citační indexy poskytují především možnost nalézat citované a citující publikace a sledovat tak vývoj nějaké úzce vymezené problematiky určitého vědního oboru. Poslední kategorie bibliografických databází je zaměřena na měření nejrůznějších aspektů publikační činnosti, např. počty publikací a citací, h-index, impaktní faktor aj. Mezi nejznámější bibliografické databáze patří Web of Science (dříve ISI, Thomson Reuters, nyní Clarivate Analytics [1]), Scopus [2], ACM Digital Library (rozšířená verze známá jako ACM Portal nebo Guide [3]), DBLP [4], CiteSeer X (dříve CiteSeer [5]) a Google Scholar [6]. Některé jejich vlastnosti přehledně shrnuje tabulka 1 a jimi se budeme dále zabývat. Mimo ně samozřejmě existují i mnohé další, které J. Steinberger, M. Zíma, D. Fiala, M. Dostal, M. Nykl (eds.) Data a znalosti 2017, Plzeň, 5. - 6. října 2017, pp. 72-76.

Aplikační příspěvek nejsou tématem tohoto příspěvku, jako např. IEEE Xplore [7], PubMed [8], arxiv [9], Microsoft Academic [10], SemanticScholar [11] atd. Tab. 1. Tabulka vlastností vybraných bibliografických databází (červen 2017) ACM DL (Guide) CiteSeer X DBLP Google Scholar Scopus Zdarma částečně ano ano ano ne ne Automatizovaný ne ano ne ano ne ne Web of Science Počet záznamů 2,68 mil. 10 mil. 3,81 mil. 100+ mil. 75 mil. 62,25 mil. Vše ke stažení ne ano ano ne ne ne Propojení referencí ano ano ne ne ano ano Propojení citací ano ano ne ano ano ano Počet citací článku ano ano ne ano ano ano Počet citací autora ano nepřímo ne nepřímo ano ano Vědní obor informatika informatika informatika všechny všechny všechny 2 Export dat Některé uvedené databáze jsou zdarma a poskytují dokonce všechna svá data ke stažení ve formě jednoho obřího souboru XML (DBLP) nebo na vyžádání jako celý dump databáze MySQL (CiteSeer X ). Google Scholar, jenž je rovněž zdarma, žádnou takovou možnost nenabízí a dokonce (zřejmě záměrně) neposkytuje ani žádné programátorské rozhraní (API) pro přístup ke svým datům. To samé platí i pro částečně zpoplatněnou ACM DL. V obou případech by tedy získání většího množství dat bylo možné pouze programově automatizovaným webovým pavoukem (robotem) se všemi problémy a omezeními s tím spojenými. U dvou zbývajících placených databází Web of Science (WoS) a Scopus je situace pochopitelně odlišná. Na obr. 1 je vidět ruční export bibliografických záznamů (maximálně 500 najednou) do čistého textu ve Web of Science: 73

Obr. 1. Ruční export záznamů z databáze Web of Science Omezení počtu najednou exportovaných záznamů je i ve Scopusu: 2000. Pokud se spokojíme s jen minimalistickými informacemi o publikacích (v zásadě jen název, autor, místo a rok vydání), zvyšuje se tento limit až na 20000 ve Scopusu a nově též na 5000 ve WoSu. Pro export řádově vyšších počtů bibliografických záznamů bude tedy vhodné využít API, které obě databáze nabízejí, a záznamy stahovat automaticky pro tento účel vytvořeným programem. Na obr. 2 je ukázka programového kódu a výsledného kusu stažených dat ve formátu XML, jak ho poskytovala starší odlehčená verze WoS API, tzv. Web Services Lite. Obr. 2. Automatický import záznamů z databáze Web of Science (Web Services Lite) Kromě této odlehčené verze je rovněž k dispozici API Web Services Expanded poskytující i mnoho dalších údajů o článcích jako jsou např. počty citací, adresy autorů nebo abstrakty [12]. Všech rozhraní lze užívat jen po registraci a získání přístupového klíče. Podobně na obr. 3 je ukázka programového kódu, který přes Scopus API [13], 74

Aplikační příspěvek kdysi označované jako SCAPI, zobrazuje importované záznamy ve webové aplikaci, jež je na rozdíl od WoS API povinným cílovým místem využití stahovaných dat: Obr. 3. Automatický import záznamů z databáze Scopus (SCAPI) 3 Závěr Dosud nezmiňovanou možností získání dat je jejich nákup přímo od provozovatele databáze. Tuto možnost sám autor tohoto příspěvku vyzkoušel u databáze Web of Science. Výhodou je dodání dat na míru podle přesně zadaných kritérií ve formátu XML. Nevýhodou je vysoká cena, a to i pro pracovníka instituce, která je standardním předplatitelem této databáze a má k ní přístup přes webové rozhraní. V každém případě mají získaná data cenné využití, ať už v bibliometrických studiích, grafových analýzách nebo obecně jakýchkoliv jiných experimentech nad rozsáhlými daty. Literatura 1. Web of Science: http://clarivate.com/scientific-and-academic-research/researchdiscovery/web-of-science/. Získáno 28. 6. 2017. 2. Scopus: https://www.scopus.com/. Získáno 28. 6. 2017. 3. ACM Digital Library: http://dl.acm.org/. Získáno 28. 6. 2017. 4. DBLP: http://dblp.org/. Získáno 28. 6. 2017. 5. CiteSeer X : http://citeseerx.ist.psu.edu/. Získáno 28. 6. 2017. 6. Google Scholar: https://scholar.google.com/. Získáno 28. 6. 2017. 7. IEEE Xplore: http://ieeexplore.ieee.org/. Získáno 28. 6. 2017. 8. PubMed: https://www.ncbi.nlm.nih.gov/pubmed/. Získáno 28. 6. 2017. 9. arxiv: https://arxiv.org/. Získáno 28. 6. 2017. 10. Microsoft Academic: https://academic.microsoft.com/. Získáno 28. 6. 2017. 11. Semantic Scholar: https://www.semanticscholar.org/. Získáno 28. 6. 2017. 12. Web of Science Data Integration: http://ip-science.interest.thomsonreuters.com/dataintegration/. Získáno 28. 6. 2017. 13. Scopus APIs: https://www.elsevier.com/solutions/scopus/features/api/. Získáno 28.6. 2017. 75

Poděkování: Tato publikace byla podpořena projektem LO1506 Ministerstva školství, mládeže a tělovýchovy ČR. Annotation: Data Acquisition from Bibliographic Databases The established bibliographic databases have a number of functionalities and can, in principle, serve as search engines of academic papers, citation indices, or calculators of bibliometric indicators. Web of Science, Scopus, ACM Digital Library, DBLP, CiteSeer X, and Google Scholar belong to the best known ones. Larger amounts of data from these databases can be successfully used for bibliometric measurements, citation and collaboration networks analysis, and for the visualization of the production and quality of scientific research. These data can be acquired only manually in some cases but also automatically in some others. In this short paper we will give an overview of bibliographic databases and the possibilities of data acquisition from them and we will focus in more detail on Web of Science and Scopus. 76