链接腐烂 (Link Rot) 是指 Web 上的链接随着时间推移而失效的现象。链接目标页面被删除、域名过期、URL 结构变更等各种原因都会导致链接无法正常工作。根据 Harvard Law School 2024 年调查,学术论文中引用的 URL 约 25% 在 10 年内变得无法访问,即使是最高法院判决书中包含的 URL 也有约 50% 出现链接失效。
链接腐烂发生的主要原因有 4 个。第一是内容删除。网站改版或停止运营导致页面被删除的情况最多,占全部链接腐烂的约 40%。第二是 URL 结构变更。CMS 迁移或网站改版导致 URL 路径改变,且未设置从旧 URL 的重定向时发生。第三是域名过期。忘记续费域名或组织解散导致域名被放弃的情况。第四是服务器停止。托管服务终止或服务器故障导致整个网站无法访问。
利用短链接服务的链接腐烂对策有几种有效方法。第一是重定向目标变更功能。使用可以事后变更短链接重定向目标的服务,即使原始页面移动了,短链接本身仍然有效,只需更新转发目标到新 URL。无需使印刷品或过去 SNS 帖子中记载的 URL 失效,即可保持链接目标为最新状态。
第二是定期链接检查。定期确认短链接服务的管理界面和访问日志,监控重定向目标是否返回 HTTP 404 或 500 错误。使用自动化工具 (Dead Link Checker、Screaming Frog 等) 可以批量检查大量短链接的目标。W3C 的 Link Checker 也可免费使用。
第三是与 Internet Archive (Wayback Machine) 的联动。当链接目标消失时,如果 Internet Archive 中保留了缓存,可以将重定向目标更改为存档版 URL,维持对内容的访问。利用 Wayback Machine 的 API 可以通过程序确认特定 URL 的存档有无。此外,在 Amazon 搜索 Web 存档技术书籍也可作为参考。
组织层面的链接管理策略也很重要。用管理台账记录已发行短链接的列表,注明负责人、创建日期、用途和重定向目标。在负责人调动或离职时确保链接管理不中断,应整备交接流程。统一命名规则并按用途分类,可以高效管理数百至数千条短链接。
在学术领域,DOI (Digital Object Identifier) 作为链接腐烂对策的标准方法已广泛普及。DOI 是赋予学术论文和数据集的永久标识符,即使链接目标变更也可以通过更新 DOI 的解析目标来维持访问。短链接也可以通过类似机制,通过更新重定向目标来确保链接的持久性。
缺点方面,短链接服务本身可能成为链接腐烂的原因。如果服务终止,该服务发行的所有短链接都将失效。2009 年 tr.im 宣布暂停服务时,大量链接面临同时失效的危机。为降低这一风险,建议使用独立域名运营短链接服务,或选择 SLA 明确的付费方案。此外,对于重要链接应同时记录短链接和原始 URL,在服务停止时能够切换到原始 URL。
相关书籍:如果您想系统学习 Web 存档和数字保存,推荐在 Amazon 搜索相关书籍。