Zpráva ze zahraniční služební cesty



Podobné dokumenty
Zpráva ze zahraniční služební cesty

Strategie budování sbírky Webarchiv u

Zpráva ze služební cesty

Metodika budování sbírky Webarchivu

ICOLC 13 th Fall Meeting

Velká data v knihovnách Open source tools and their use in Czech libraries

Karel Koucký. Státní oblastní archiv v Praze Národní archiv AKM 2013,

Zpráva ze zahraniční služební cesty

Zpráva ze zahraniční služební cesty

Přidružené publikace v České republice

Přístup k národnímu webovému archivu. Tomáš Síbek a Lukáš Gruber

Libraries in the Digital age (LIDA) 2012 University of Zadar, Zadar, Chorvatsko

Máte to? Summon jako základní vyhledávací nástroj NTK

Šedá literatura case study v ČR

webových zdrojů Mgr. Jan HUTAŘ Bc.. Lukáš JKA Mgr. Ludmila CELBOVÁ

Zpráva ze zahraniční služební cesty

8. Konference o šedé literatuře a repozitářích 21. říjen 2015, Praha

Co je (staro)nového v DSpace

Grey Literature ve světě

Infrastruktura pro OA k výsledkům evropského výzkumu a vývoje

Kde hledat odborné články?

Certifikace Národní digitální knihovny podle ISO normy Jan Mottl AiP Safe s.r.o.

Osobní archivy publikovaných odborných prací v medicíně jako součást Digitální knihovny NLK

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Otevřený přístup (Open Access) v Akademii věd ČR

Horizont 2020 a otevřený přístup k vědeckým publikacím a výzkumným datům:

Economists Online: nový portál pro ekonomické vědy

Zpráva ze zahraniční služební cesty

Otevřený přístup v evropském kontextu

CO DĚLAT, ABY BYLA DATA V DOKTORSKÝCH DISERTACÍCH ZNOVU VYUŽITELNÁ PRO VÝZKUM? Joachim Schöpfel Hélène Prost Cécile Malleret

Název projektu: Zvýšení adaptability zaměstnanců organizací působících v sekci kultura Název kurzu: Seminář pro knihovníky a informační pracovníky

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

Aktuální hlediska a trendy v přístupu k vědeckým informacím a datům. David Novák Archeologický ústav AV ČR, Praha, v. v. i.


Příprava legislativy povinného výtisku elektronických publikací v České republice (e-depozit)

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů

OpenAIRE & OpenAIREplus

EVROPSKÁ KOMISE GENERÁLNÍ ŘEDITELSTVÍ PRO KOMUNIKACI EVROPSKÁ DOKUMENTAČNÍ STŘEDISKA PŘÍLOHA III POKYNY K DOHODĚ O PARTNERSTVÍ

Zpřístupňování výzkumných dat, publikací a aktuálních informací o výzkumu v DANS

Ex Libris strategie a směr vývoje Olomouc, 19 června Christian Motovsky, Senior Account Manager Ex Libris Group

The Australian Research Repositories Online to the World

Koncepce rozvoje knihoven ČR na léta Priorita 2: Trvalé uchování digitálních dokumentů

- luxus nebo nezbytnost?

Řešení pro dlouhodobé ukládání dat

Vydavatelská činnost - nová kompetence univerzitních knihoven

Budoucnost českého webového archivu

Zpráva ze služební cesty

Novinky v e-zdrojích NLK. Adéla Jarolímková, NLK

Linked Heritage. Koordinace standardů a technologií za účelem obohacení Europeany. Alena Součková

PhDr. E. Lesenková, Ph.D. Mgr. A. Jarolímková, Ph.D. PhDr. H. Bouzková


Obsah Strategie rozvoje infrastruktury pro prostorové informace v ČR do roku (GeoInfoStrategie) Jiří Čtyroký, vedoucí Zpracovatelského týmu

Digitalizace a digitální knihovny v České republice

The bridge to knowledge 28/05/09

Zpráva ze zahraniční služební cesty

Plán činnosti pro rok 2018

Zpráva ze zahraniční služební cesty

Plán činnosti pro rok 2015

Seznámení s přípravou platformy pro zajištění služeb dodávaní dokumentů včetně MVS: ZÍSKEJ - I

- otevřený přístup k výsledkům vědy. Mgr. Zdeňka Firstová a Mgr. Anna Vyčítalová Univerzitní knihovna ZČU v Plzni

icc Next Generation atlantis Copyright 2011, atlantis

Datová úložiště CESNET

Statistiky využití článků v online repozitářích

Zpráva ze služební cesty

Podpora otevřeného přístupu v prioritě 7. RP Věda ve společnosti

Dlouhodobé uchování a zpřístupnění digitálních dokumentů v Evropě: výsledky dotazníkového průzkumu

Zpřístupnění kulturního dědictví v digitální podobě v ČR prostřednictvím knihoven

Efektivní a efektní knihovna. Radka Římanová, Národní technická knihovna

Olga Rudikova 2. ročník APIN

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna

Veritas Information Governance získejte zpět kontrolu nad vašimi daty

Federativní autentizace v portálu Knihovny.cz, mojeid, IdP sociálních služeb, požadované atributy u Knihovny.cz

Zpráva ze služební cesty v ČR


Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Zpráva ze zahraniční služební cesty

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

local content in a Europeana cloud

Právní aspekty šedé literatury

Nařízení eidas v kontextu digitální transformace

Zpráva ze služební cesty

INFOS Objevte discovery!

Seminář pro vedoucí knihoven a SVI ústavů AV ČR

Europeana Cloud: nové řešení pro efektivní předávání a využívání dat Petra Pejšová, Národní technická knihovna

Lotus Quickr - ECM Integrace s LD/LN aplikacemi. Ing. Josef Homolka VUMS Legend

Více dynamiky vašim procesům

DATOVÁ ARCHIVACE. Principy datové archivace a její výhody při migraci na SAP HANA. Štěpán Bouda Business Consultant

Technologie digitálních knihoven

Open Source a softwarová integrace. Roman Piontek Director of SaaS Innovation

Možnosti pro vyhledávání inovací a partnerů pro zahraniční spolupráci. Jiří JANOŠEC Technologické centrum AV ČR

Digitalizace a dlouhodobé uchovávání digitálních dat jako téma

E-knihy od renomovaných vydavatelů odkudkoliv online i pohodlně na čtečky

2013 IBM Corporation

Pacientův průvodce po webu

EIZ ve společenských. enských vědách

Šedá literatura ve VÚGTK Ing. Jiří Drozda

Podpora otevřeného přístupu na ČVUT role ÚK v podpoře OA

Akademické publikování a autorské právo. Lucie Straková Martin Loučka Konference OpenAlt

Transkript:

Zpráva ze zahraniční služební cesty Jméno a příjmení účastníka cesty Libor Coufal Pracoviště dle organizační struktury Oddělení archivace webu, 2.4.1 Pracoviště zařazení knihovník Důvod cesty Valné shromáždění IIPC + doprovodná konference a workshopy Místo město Washington Místo země Spojené státy americké Datum (od-do) 28.4.2012 6.5.2012 Podrobný časový harmonogram 28.4. večer přílet 29.4. volno 30.4. konference The Broad Value of Web Archives: Demonstrated Use 1.5. valné shromáždění IIPC 2.5. jednání pracovních skupin IIPC 3. 4. 5. workshopy 5.5. večer odlet 6.5. přílet Spolucestující z NK Zuzana Kratochvílová, Rudolf Kreibich Finanční zajištění VZ0137 Cíle cesty Účast na konferenci Účast a prezentace na valném shromáždění IIPC Účast na jednání pracovních skupin Účast na workshopech Plnění cílů cesty (konkrétně) Všechny cíle byly splněny všichni účastníci se zúčastnili konference a valného shromáždění IIPC, L. Coufal prezentoval na valném shromáždění příspěvek k tematické sklizni Václav Havel. L. Coufal se zúčastnil jednání pracovní skupiny Preservation, Z. Kratochvílová se zúčastnila jednání pracovní skupiny Access, R. Kreibich se zúčastnil jednání pracovní skupiny Harvesting/Heritrix. L. Coufal se zúčastnil workshopu Web Lifecycle Management, Harvesting and Preserving the Future Web, Crouwdsourcing workshop a ISO workshop. Z. Kratochvílová se zúčastnila Web Lifecycle Management, Legal Roundtable, Crouwdsourcing workshop a ISO workshop R. Kreibich se zúčastnil workshopů Netarchive Workshop, Harvesting and Preserving the Future Web, UDFR a ISO workshop

Program a další podrobnější informace Podrobný program celého týdne je dostupný na stránkách http://netpreserve.org/events/2012ga.php Podrobnější informace jsou v příloze této zprávy Přivezené materiály Datum předložení zprávy 18. 5. 2012 Podpis předkladatele zprávy Podpis nadřízeného Vloženo na Intranet Přijato v mezinárodním oddělení 30. 4. 2012, pondělí Konference The Broad Value of Web Archives: Demonstrated Use A decade and a half of archiving the web for data mining: Lessons learned and how users use web archives Kalev Leetaru, University of Illinois - Záplava digitálních dat, akcelerace informací většinu jsou určeny pro konzumaci a pak vyhodit - Co by se stalo, kdybychom se chovali stejně s knihami? I když existují web archivy, je to, jako bychom uchovávali sem tam nějakou knihu - Jak složité je archivovat moderní webové stránky novin? - Chicago Tribune - 105 gateway pages, na kterých se objeví nové zprávy, ale postupně mizí a mikde nezůstane soupis stránek, které kdy existovaly, odkazy nemají dlouhou životnost - Drudge report může být aktualizováno až 1000x denně - DNS potřebujeme znát kontext webových stránek kdo vlastnil, kde to bylo publikováno, - velmi důležité! - Na webu se často čaruje s fakty změna tiskových zpráv Bílého domu pro běžného občana web je základní zdroj důvěryhodných informací - Není dostatek informací o kontextu web archivů jak byl pořízena určitá archivní kopie, kdo informace o tom, jak crawler šel, jak se dostal na určité stránky, kde začal a jakou cestou šel a proč - Webové stránky jsou personalizované různé verze podle toho, odkud přichází uživatel - Užití archivů a rozhraní API pro data mining důležité - Streaming velké nároky na bandwith, úložné kapacity zjistili, že žádné super computer centrum nemá dostatečné kapacity

- Twitter využití pro predikování pohybu akciových trhů ne informace o firmách, jednotlivých trzích, ale celý twitter sentiment všech uživatelů významné informace jeden hedge fond je na tom založený, využívají twitter pro investiční rozhodnutí How web archives are used in the Text REtrieval Conference (TREC) Ian Soboroff, National Institute of Standards and Technology (NIST) - TREC (Text retrieval konference) - Test collections: Jedna z výzkumných oblastí: měření relevance dokumentů vůči vyhledávacím dotazům první vyhledávací algoritmy umožňují opakovat experimenty, porovnávat různé systémy, vylaďovat parametry systémů, - Mají různé kolekce webových dat získané různými institucemi (CSIRO ) - Jak dobré je vyhledávání na webu? Mohlo by být lepší? Jak moc lepší? - Vyhledávače neví nic o lidech, které hledají, a jejich důvodech snaží se maximalizovat šanci, že budeme spokojení s výsledkem Using web materials in researching contemporary terrorism Bruce Hoffman, Georgetown University - Terorismus je velmi úzce závislý na publicitě, mediální pozornosti kdo jsou, proč a za co bojují - Masová komunikace v 21. století usnadňuje komunikaci teroristů s jejich diváky můžou komunikovat přímo prostřednictvím rozmanitých kanálů, live broadcasting, můžou uplně obejít tradiční komunikační kanály, komunikovat rychle (v reálném čase), a především ANONYMNĚ - Většina teroristických webových stránek je dnes zaheslovaná, není přístupná výzkumníkům a není indexovaná googlem - Přístup k informacím o terorismu na webu je kritický pro výzkumníky. 3 hlavní zdroje: vládní stránky,?, univerzity (přístup pouze k výsledkům výzkumu, ale ne k vlastním archivům), programy, které pravidelně monitorují, sbírají informace The Challenges of Researching the Social Web Stuart W. Shulman, University of Massachusetts - (Sociální) data jsou archivovaná, ale není k nim přístup - Problém nejsou úložné kapacity, ale s objemem dat rostou náklady a velké množství malých dat (tweets) to komplikuje (čím více objektů v indexu, tím hlouběji musí jít hledání) více CPU, RAM - Velké repozitáře nejsou efektivní, místo toho mnoho malých archivů, které mezi sebou kooperují

- Otázky soukromí (osobní informace) a bezpečnosti dat zabránit úniku citlivých dat Data Mining in News Data from Multiple Media Claude Mussou & David Rapin, Institut national de l'audiovisuel (InA) - Audiovizuální archiv, mají spolu s BnF povinný výtisk - Projekt OTMedia data mining news, velmi velký objem dat - S nástupem internetu/webu se změnil jednosměrný tok informací od médií k uživatelům - OTM platforma a vyhledávač pro mixed media sources - Extrakce metadat, homogenizace, Extrakce textu a obrázků (zbavit se komentářů a dalšího balastu) - SOLR na indexaci, indexace obrázků výzkumný projekt Trends in Pandora Monica Omodei, National Library of Australia (NLA) - Pandora výběrový archiv, spolupracuje více institucí, od 1996-6.3 TB, 140 mil. souborů, 30.5 tis. titulů, 73.5 tis. instancí - Celoplošná sklizeň IA není veřejně přístupná - Chtějí se dostat na tématické sklizně, nominace od velkého množství lidí - Nemají povinný výtisk (zatím) musí žádat o svolení - povinný výtisk je v přípravě - Zastaralá infrastruktura, zastaralé výběrové kritéria - Budují novou infrastrukturu (DLIR projekt), zkoušejí Heritrix - které stránky jsou nejpopulárnější a proč? 30 nejpopulárnějších titulů podle logů pro jednotlivé roky 2009 2012 pokusit se vysvětlit, proč jsou populární protože kdysi byla populární živá verze, protože živé stránky využívají jako archiv (odkazuje na Pandora) - závěr: více se propagovat, dělat redirekty, dovolit Googlu indexovat archivované stránky, které už neexistují Actual and potential users of the BnF web archives: experiences and expectations Clément Oury and Peter Stirling, Bibliothèque nationale de France (BnF) - mají povinný výtisk, můžou sklízet, ale ne přístup mimo knihovnu, pouze pro výzkumníky (nejen akademici, ale kdokoliv, kdo prokáže potřebu) - URL, full-text, guided tours seznam vytvořený knihovníky pro speciální témata

- 30-50 návštěvníků měsíčně, 1 hodina na uspokojení potřeb, uzavírají dohody s výzkumníky při kterých můžou zjistit potřeby - Co je nejvíc žádané? Výzkum v politických a sociálních vědách - Různé zajímavosti (amatérští spisovatelé na webu, ) - Reakce uživatelů jednoduché a jasné na použití, našli co hledali X nemůžou kopírovat, schází některé části, nejsou informace, proč bylo/nebylo archivováno, schází informace o kvalitě archivace a důvodech - Potenciální uživatelé studie 2010/11 o co by měli potenciálně zájem rozhovory s 15 výzkumníky, kteří předtím neužívali webové archivy - Výzkumníci jsou opatrní, protože web není uznávaný zdroj Jak citovat nestálé zdroje? - Jak výzkumníci vnímají webové archivy užitečné pro uchování paměti webu - Etické otázky co je veřejné, co je soukromé většinou zájem o soukromé věci (FB účty, ), které vlastníci nevnímají jako veřejné publikace - Webové archivy nevnímají jako tradiční papírové archivy, ale spíš jako oral history (protože obsahují komentáře, apod.) - Web je příliš velký, je třeba dělat výběr aby byl archiv smysluplný, je třeba dokumentovat, co a proč bylo vybráno - Co dělají dobře hodně obsahu, dobře dokumentované (ale není přístupné) Value of Web Archiving to the Legal Industry Rod Wittenberg, Reed Technology and Information Services - Využití webových archivů při právních sporech důležité jako důkazy - Právní akademické studie reference musí být trvalé - Co vyžadují soudy jako akceptovatelné důkazy? - Padělky značkových výrobků nabízené na webu falešné webové stránky výrobců často otevřeně přiznávají - Musí se posbírat co nejvíce metadat, že předložené důkazy jsou autentické datum, kód, hashe, - Další žhavé právní otázky komu patří sociální obsah co když spravuji účet na Twitteru pro mého zaměstnavatele a změním zaměstnání?? Web archives to meet regulatory, management, e-discovery and cultural heritage needs Mark Williamson, Hanzo Archives

- Velké firmy (obraty v mld. dolarů) předpokládají, že v budoucnu budou vystaveny právním sporům, jistí se proti tomu - proaktivně - Často není důležitý vzhled, ale funkcionalita jak archivovat? - Je třeba uchovávat všechna metadata WARC - Archivy obsahují velmi hodně odpadu /hluku problém pro vyhledávání - LAWA large scale web crawling big data Harvesting from the harvest: Automatic extraction of state government publications from web archives Kathleen Kenney, State Library of North Carolina - Repozitář vládních publikací - CINCH (Capture, INgest, CHeck sum) nástroj - Sada souborů seznam URL najde, udělá check sumy, zkontroluje, stáhne, zkontroluje znovu? How can Web Archives become a critical component of today's Internet? Leïla Medjkoune, Internet Memory - Internet Memory historie: 2 oblasti archivace webu pro instituce + extrakce (big data a nástroje) - Archivethe.net - Služba pro automatické přesměrování (kód je open source) pro National Archives - Kód na serveru, když klient narazí na 404, je přesměrován do archivu - Zvýšila se návštěvnost archivu mnohonásobně!!! Web Archiving as part of a Research Library Special Collection: the Latin American Government Documents project Kent Norsworthy, University of Texas at Austin - V Jižní Americe nejsou instituce (NK), které by měly ze zákona povinnost uchovávat webové stránky nebo na to nemají zdroje - musí dělat vědecké knihovny, nebo to zmizí - Spolupráce 140 universit, externě Internet Archive 1. 5. 2012, úterý IIPC General Assembly Chair speech Martha Anderson, Library of Congress

- Welcome new members: Estonia, George Washington Uni, Columbia Uni, Los Alamos National Labs - Nové logo IIPC angle bracket reprezentují html kód technické standardy, které nás zajímají; zelená znamená růst, oranžová energie, modrá důvěra (jsme důvěryhodné instituce) - Všichni máme big data i malé instituce několik TB je pro ně big data, potřebujeme nástroje, které si poradí s velkým objemem, ale hlavní význam přináší vlastní obsah stránek (Monica First Families) - Potřebujeme odborníky na různé oblasti: kurátory, techniky, výzkumníky, manažery - Brenda Reyes (Španělsko) studentka, získala grant IIPC na PhD studium - Je třeba se adaptovat na neustálé změny v technologiích, workflow, strategiích - příležitost zamyslet se nad tím, jak dělat věci nově, lépe Program Officer update Aaron Binns, Internet Archive - V 2010 hodně nových členů, někteří začínali s archivací, různá úroveň zkušeností jak se s tím vypořádat - 2011 výzva pro žádosti na projekty financované z IIPC - Vybrané oblasti, do kterých investovat peníze IIPC: vzdělávání a trénink, outreach, technické oblasti - Oblasti, které by byly zajímavé, ale nebyly žádné návrhy tréninkové moduly (dokumentace, howto, videa, prezentace technicky orientované záležitosti), outreach (vizualization contest?), QA, virtuální světy, online hry ve všech těchto oblastech hledají nové návrhy - Některé výzvy multimédia, sociální web a média Treasurer update Clément Oury, Bibliothèque nationale de France (BnF) - Výdaje za 2011-12 000 travel (30 tis. Plán); 15 880 GA IIPC Hague; 1800 jednání Londýn; 2500 ipres workshop; 2285 Domani crawl report (Rakousko) - Administration fees; Rozpočet na 2012 - Z předchozích let zbývá 445 000 EUR + příjmy za členské poplatky cca 176 000 EUR 300 000 rozpočet na 2012 na nové projekty cca 320 000 EUR Communications & Membership update, Website redesign presentation

Abbey Potter, Library of Congress - Nové stránky nový design + nezávislý hosting - Twitter - @netpreserve - Mailing listy members, curators, working groups - Noví členové letos zaměřeno rekrutování z řad univerzit, nové země a federální instituce - Letos se bude obnovovat konsorciální smlouva - Budou se volit 4 noví členové řídícího výboru, současní členové mohou znovu kandidovat - Loni v Haagu propagační video o IIPC a archivaci webu, letos se budou dělat nová videa zaměřená na ukázky využití webových archivů - Výběrové řízení na nové stránky 17 zájemců, 2 prošli do užšího výběru, vybrány 4site (Washington), stránky poběží na Drupalu Web Archiving at Columbia University: Collecting Web Content for Research Robert Wolven, Columbia University Libraries - Začali s archivací před cca 4 roky - Jako vědecká knihovna se snaží mít všechny různé zdroje pro výzkum, včetně webových stránek - Záměr na volně dostupné zdroje na webu, které mají výzkumnou hodnotu dneska v podstatě cokoliv má nějakou výzkumnou hodnotu je třeba stanovit program, který bude udržitelný - Co archivovat? 3 strategie: výběrový archiv doplňuje jejich silné oblasti jejich knihovny a to, v čem je silná univerzita zároveň neduplikovat, co je jinde; archivní kolekce ve smyslu tradičních archivů lidé a archivy, pro které mají papírové archivy; institucionální archiv Kolumbijské uni - Oblasti na které se zaměřují human rights, architektura a umění historic preservation?; NY City religious institutions Web Archives at George Washington University Daniel Chudnov, George Washington University - Teprve začínají, 3 hlavní současné úkoly: začínají s institucionálním archivem GWU + doplněk jejich tradičních archivů; později chtějí rozšířit na jejich hlavní výzkumné oblasti - Chtějí se zaměřit na archivaci sociálních médií jako podporu výzkumu v této oblasti

Estonian Web Archive: Preserving the Estonian Mind Jaanus Kõuts, National Library of Estonia - První pokusy 1997, 2000 pilotní projekt, 2006 povinný výtisk - 2006 archivace pdf publikací z webu, mají většinou ISBN/ISSN, jsou plně katalogizované - 2010 selektivní webový archiv - 2010 národní pracovní skupina kooperace s jinými institucemi a výzkumníky, radí, co mají archivovat, 11 paměťových a výzkumných institucí - 2011 nová výběrová policy - Povinný výtisk právo archivovat a umožnit veřejný přístup, vlastník práv může omezit přístup Los Alamos National Laboratory Herbert Van de Sompel, Los Alamos National Laboratory - Nechtějí budovat webový archiv, ale nové nástroje pro archivaci - adore repozitář LTP pro research literature - mod_oai pluging pro Apache nefungovalo, ale inspirovalo Google pro sitemaps (tools for a preservation ready web) - OAI-ORE agregace - Memento - Nový projekt Transactional web archives! IIPC Memento Aggregator & Memento, Adding Time to the Web (mpeg movie) Robert Sanderson, Los Alamos National Laboratory - Agregátor metadat z jednotlivých archivů - Plán poskytovat rychlý přístup do webových archivů - Add-on Memento fox (plugin pro Firefox) JhoNAS, WARC support in JHove2 and NetarchiveSuite Nicholas Clarke, Netarchive.dk - Projekt IIPC - Podpora použití WARC v Netarchive Suite a implementace v JHOVE2 Twittervane Helen Hockx-Yu, British Library - Automatická extrakce a analýza URL v tweetech na Twitteru které webové stránky jsou sdíleny nejčastěji k danému tématu v určitém časovém období základ pro tematické kolekce

Library of Congress Web Archives Update Abbie Grotke & Nicholas Taylor, Library of Congress - Mají skupinu manažerů na vysoké úrovni, kteří dělají strategická rozhodnutí o WA - 54 tématických a event-based kolekcí, 19 aktivních - Spolupráce s různými institucemi na několika různých kolekcích - 17 kolekcí je veřejně přístupných, mix on- a off-site přístup podle toho, jestli mají svolení - Více než 315 TB dat, 6 TB nárůst měsíčně - Používají Internet Archive, sami dělají testovací sklizně a menší speciální projekty (digital preservation formats crawl, newspaper crawl) - Nedávno změnili politiku přístupů některé stránky archivují na základě oznámení, 1roční embargo na přístup - Informace o DigiTool nový modul pro QA - Nové vyhledávání ve WA, vyhledávání dohromady s ostatními zdroji - Používají Web Archive Transformation (WAT) na vyloučení obsahu třetích stran pro indexaci - Experimenty s Big Sheets, testování WARC tools, malé testy HIVE for LC Web Archives: Web Archives and Automatic Subject Indexing Rick Fitzgerald, Library of Congress; Craig Wills, UNC - Strojová indexace webových archivů - používání kontrolovaného slovníků (LCSH) - LSCH je příliš velký použít menší subset? Jak sestavit? - Webové stránky mají jinou strukturu než ostatní dokumenty specifické problémy při indexaci International Digital Exchange Assessment (IDEA) Megan Caverly, Library of Congress - IDEA mezinárodní výměna digitálních vládních publikací Leveraging Web archives Research Leïla Medjkoune, Internet Memory - LAWA analýza dat z webových archivů - Vylepšený sběr dat a ukládání - Efektivní distribuce dat a sklízení, distribuované sklízení - Průzkum, vytěžování a získávání znalostí z agregovaných

Web Archiving in 2012 at National Diet Library Masaki Shibata, National Diet Library - Archiv zaměřený na zemětřesení v roce 2011, spolupráce s IA - Plán nahradit WCT tool - Výzvy automatická extrakce metadat, zlepšení fulltextové indexace Challenges and Opportunities in the Absence of Legal Deposit: Web Harvesting for the US Government Printing Office and the US Federal Depository Library Program David Walls, Government Printing Office - 1861 - US Government Printing Office - Úkolem poskytovat volný a trvalý přístup ke vládním publikacím Havel Collection Update Libor Coufal, National Library of the Czech Republic - Informace o průběhu a problémech při tematické sklizni věnované úmrtí Václava Havla 2. 5. 2012, středa Preservation Working Group - Shrnutí loňských aktivit - Program následujících telekonferencí - Update JHOVE2, JhoNAS - WARC implementation guidelines - LOCKSS David Rosenthal vlastní crawler, sklízení časopisy (a knihy?), ukládají do repozitáře, z repozitáře možnost vyexportovat do WARC pro přesun jinam Access Working Group - Web Curator Tool QA modul - Memento updates Herbert van der Sompel - Olympic games updates - INA audiovizuální dokumenty problém, jak je sklízet a zpřístupňovat možné řešení, používají k tomu vlastní nástroj, videa se nezpřístupňují ve Waybacku, ale přehrávají se mimo něj Harvesting Working Group - V BnF používají media proxy a automatizované klikání po 5 pixelech - není nejrychlejší ale funguje - software vyvíjí, problém s architekturou - příliš zaťežuje CPU, protože kontroluje všechna spojení Heritrix User Group - Vývoj v poslední době ustal opět se bude do vývoje investovat - Premýšlí si o rozvoji UI - Netsuite plánuje integraci H3 do aplikace - Distributed frontier je stále spíš přání, takže distribuované sklizení potřebuje otestovat - H3 by měl zapisovat záznam o nálezu duplikátu při deduplikaci, takže s přechodem na H3 a WARCs můžeme začít s deduplikací

3. 5. 2012, čtvrtek Web Lifecycle Management - Klíčové otázky spojené s archivací webu jak vybudovat tým? Finanční a technické zajištění, spolupráce technici-kurátoři, co archivovat? Legislativa, kontrola kvality, jak definovat kvalitu, zpřístupnění, vyhledávání a pomoc uživatelům, dlouhodobé uchování - Dostupné prostředky ovlivňují to, co se dělá, co se archivuje Legal Roundtable - Informace o povinném výtisku v jednotlivých členských zemích IIPC mají x nemají, možnost zpřístupňovat - Norsko, Francie, Estonsko, Velká Británie a další mají povinný výtisk - Jak definovat národní doménu? - Pro a proti dodržování robots.txt 4. 5. 2012, pátek Crouwdsourcing Workshop - Web jako sociální platforma - Jak využít moudrost davu? - Příklady zahraničních projektů http://www.galaxyzoo.org/ http://www.oldweather.org/ http://tagger.steve.museum/ http://menus.nypl.org/ - Můžeme to také využít ve webových archivech? ISO workshop on metrics and quality - Informace o přípravě ISO standardu indikátory kvality web archivů - Úvod definování archivace webu, aktivit a používaných nástrojů - Definování základních indikátorů, sjednocení terminologie