模板本身和提示指令

MasudIbne756 · Post by **MasudIbne756** » Tue Mar 18, 2025 9:57 am

我们在开发流程中调整了这两个旋钮：洞察以满足任务约束。我们使用人机交互和自动评估来评估每一轮调整后产生的摘要。洞察摘要流程的开发需要在这两个步骤之间交替进行，评估指导每个旋钮的更新。这种迭代对齐过程有助于将摘要质量引导到理想的标准。

评估
迭代对齐过程的核心是我们的评估层，它告诉我们如何调整 llm 提示并更新中间洞察模板。每一轮调整 llm 提示和/或洞察模板都涉及一个评估步骤。我们创建了一个综合评估，其中包括具有随机事实集购买线索的各个领域的指标。我们包括涵盖所有情况的指标洞察组合，例如不同洞察类型但在同一时间段内，同一指标的趋势在不同时间范围内存在冲突情绪等。这使我们能够衡量任务约束在不同类型的指标组合中的满足程度，并针对特定情况调整我们的旋钮。

我们收集了这一多样化评估集上的人工注释和自动化指标，以评估每轮评估的摘要质量。人工注释会考虑语气、摘要语义、幻觉等方面，而自动化指标则会检查冗长程度、格式验证和要求的其他确定性方面。每轮评估都会为我们提供有关 llm 在我们任务上的行为的具体反馈。每轮评估结束后，我们都会优化 llm 提示和中级洞察模板，以符合要求。我们修改上下文示例，以指导 llm 处理特定的边缘情况。我们重复此过程，以迭代方式调整中级洞察模板和提示，直到质量指标达到我们的可接受性阈值。