信任和安全措施
对于 crm 基准的第一个版本,我们纳入了全措施。虽然这些措施并不全面,但它们提供了 salesforce 客户特别关心的几个信任与安全方面的信息。我们的方法是双管齐下的,首先,使用三个公共数据集评估安全性、隐私性和真实性,其次,对 crm 数据执行公平性扰动。
我们使用的公开数据集包括“不回答”(用于安全性指标)、“隐私泄露”(用于隐私指标)和“对抗性事实”(用于真实性指标)。安全性的评估方法是计算 100 减去模型拒绝响应不安全提示的次数百分比。隐私性的衡量标准是 0 次和 5 次尝试中隐私得到维护(例如,避免泄露电子邮件地址)的平均次数百分比。真实性则由模型正确处理 telegram 日本人 提示中呈现的不正确一般信息或事实的次数百分比决定。
为了衡量crm 公平性,我们通过扰动以下项创建了上述 crm 数据集的扰动版本:(1) 人名和代词或 (2) 公司/账户名称。然后,我们分别将性别偏见和公司/账户偏见定义为模型性能的变化(使用上述准确度指标)分别在扰动 (1) 和 (2) 之后。最终的 crm 公平性得分是性别偏见和账户偏见的平均值。
此外,我们为每种偏差类型创建了 5 个扰动版本,并使用引导法测量由于数据扰动的随机性而导致的模型性能变化分布。我们计算了每个模型的 crm 公平性度量的 95% 置信区间,并验证了任何大于 1 的排名通常都具有统计意义。