一、引言
网络信息存档的深入开展驱动实践领域为促进网络档案资源的利用和开发设计技术工具,形成了功能各异、使用场景不同的系列产品。加强对相关工具的了解对于网络档案资源的开发利用具有积极意义。由此,“档案那些事儿”接续上期有关网络信息捕获工具的介绍《档案实务|网络档案管理专题(三)——网络信息捕获工具大盘点》,继续盘点网络信息开发利用的技术工具,介绍不同工具的开发背景、基本功能等。
二、工具介绍
总体而言,面向网络档案资源的开发利用,现有技术工具着重于实现网络档案的复现、检索、分析和基本的管理功能的实现。
(一)网络档案的复现工具
InterPlanetaryWayback
InterPlanetaryWayback是由欧道明大学计算机系MatKelly等人在“档案释放黑客马拉松”项目(ArchivesUnleashedHackathon)的资助下,使用Python语言开发的网络档案复现工具,并于年在开源平台Github发布。该工具可从InterPlanetary文件系统中获取WARC格式的网络档案,并重新组合存档的HTTP响应以进行网络资源复现。该复现工具由索引器和复现装置构成。索引器用于从WARC文件库和InterPlanetary文件系统中提取HTTP头字段、有效载荷(payload)、时间、内容类型等,并将其构建为CDXJ格式的索引文件。复现装置则可在用户发出请求后,即可从索引中获取对应的文件。通过该索引文件即可从InterPlanetary文件系统中获取HTTP头字段以及有效载荷,并在复现装置中组合上述文件进而提供给用户。
工具链接: