但在很多情况下,当一个项目结束或资金流出时,这些网站就会被关闭,数据也会像亚历山大知识一样消失。发布的数据集通常缺乏 元数据 这样我们就能通过日常使用的搜索引擎轻松找到它们。我们能做些什么来保存数据,以便我们未来的自己——更不用说子孙后代——能够使用它们?
年, 数据的概念在期刊上被提出 科学数据 作为对“迫切 捷克共和国手机号码数据 需要改善支持学术数据再利用的基础设施”的回应。但 数据原则的适用性远远超出了学术数据;这些原则为我们如何使 所有 数据更加持久提供了指导方针。
中的“”代表“可查找”。我们都习惯于使用搜索引擎查找网页,但许多数据集以电子表格的形式分发,通常不包含搜索引擎可以索引的描述。使数据更易于查找的一个简单操作是添加电子表格的简短描述,例如“美国司法管辖区向 报告的疫苗分发和接种数量”。
中的“”代表“可访问性”。这通常是最难长期管理的;你可以把数据放到网络服务器上,但如果你必须用项目资金支付该服务器的费用,那么当项目结束时,这些数据就会消失。幸运的是,在我自己的公司服务器上免费托管相当大的数据源很容易;只需一个 帐户即可创建一个帐户,您可以在其中托管原始内容或回应来自其他来源的内容。当项目资金结束时,数据真的没有理由丢失。