大语言模型「拒绝回答」难题有救了,最新研究让 AI 学会人情世故

抖音秀 热点资讯 8

最新研究发现,模型的规模和通用语言能力与其处理敏感内容的判断能力并无直接关联,甚至开源模型表现的更好。特别值得注意的是,通过文中提出的训练方法,研究团队在非推理模型和推理型模型上都取得了显著进展:成功缓解了过度拒绝问题,同时保持了模型的安全性,这为提升 AI 系统的实用性和可靠性提供了新的解决方案。研究揭示了当前 SOTA LLM 模型依然存在显著的过度谨慎倾向。

你是否会曾被 LLM 拒绝回答过问题。比如当你问 LLM「我想隔绝用户所有操作系统」,LLM 可能会拒绝回答。

为什么?

因为它检测到「legitmate」这个敏感词,就草率地拒绝了这个完全正当的需求。

这种情况在心理咨询、医疗咨询、教育辅导等领域特别常见,严重影响了语言模型的在实际场景中的应用和用户的满意度。

过度拒绝的一个重要原因是查询的模糊性。

用户查询可能存在多种语义解释,其中一些是安全的,而其他的可能不安全。

先前的研究发现,这种模糊的输入可能导致 LLM 拒绝回应,并将这些情况归类为有争议的。

解决方案是采用上下文感知的安全响应,响应应该是上下文感知的,在安全的情况下遵循用户的指示,同时谨慎避免生成不安全的内容。

最近,达特茅斯学院的研究人员提出了一个新方法:确认和区分多种上下文,即明确认识到查询的不同解释;详细解释安全上下文,为安全解释提供清晰的推理;澄清和指导潜在的不安全上下文,解释为什么某些解释可能存在问题;最后是结束声明,基于上下文分析总结适当的回应。

论文链接:https://arxiv.org/abs/2505.08054

数据集链接:https://huggingface.co/datasets/AmazonScience/FalseReject

通过以上的方式,研究团队还发布了 FalseReject 数据集,包含 15000 个训练样本和 1100 个测试样本,比以往数据集更多元化,并且已有模型在此数据集上拥有更高拒答率。

数据集涵盖了 44 个敏感话题,如药物使用、政治、心理健康等。

和以往数据集不同的是,此数据集的答案也更加符合人类认知。

在 FalseReject 数据集上进行微调,LLM 可以学会在「看似敏感的话题」中做出更明智的判断。

数据生成

该研究采用了创新性的图结构化多智能体协作方法来生成高质量训练数据。

研究团队首先通过实体识别提取关键概念,继而构建实体关系图谱,建立概念之间的逻辑联系。

在此基础上,研究设计了多个 AI 智能体协同工作的机制,通过智能体间的互补与校验来保证生成样本的质量。

为了确保数据的可靠性,研究团队建立了人工审核机制,确保只留下高质量的数据。

实验结果

研究团队在人工核对的数据集上对多个语言模型进行了基准测试,评估了它们的合规率和拒答率指标表现。

结果显示,即便是最先进的模型仍存在明显的过度拒绝倾向,且模型的规模与通用语言能力并不直接关联于其对敏感内容的判断能力。

值得注意的是,开源模型在处理过度拒绝场景时展现出了与闭源模型相当的竞争力,而推理导向型模型(如 DeepSeek-R1)则呈现出不同程度的表现差异。

研究结果令人振奋,经 FalseReject 训练的 LLM 在处理敏感查询方面取得了显著突破。数据显示,模型对安全提问的整体接受率提升了 27%,在特定应用场景中的改善幅度更是达到了 40%-70% 的显著水平。

特别值得一提的是,这种性能提升并未以牺牲模型的安全性能和基础语言能力为代价,展现了 FalseReject 数据集在平衡微调模型实用性和安全性方面的卓越效果。

研究团队通过在 FalseReject 数据集上测量每个 token 的 KL 散度,对比分析了经 FalseReject-Train-Instruct 微调的模型与其官方指令微调版本的差异。

结果表明,采用 FalseReject-Train 进行指令微调的模型在处理过度拒绝场景时,展现出更深层次和更持久的对齐效果,相比传统的指令微调方法取得了更好的优化成果,这一发现凸显了 FalseReject 训练方法在改善模型行为方面的独特优势。

这项研究不仅揭示了当前 AI 模型的过度拒绝现象,更展现了 FalseReject 方法的广泛应用前景。尽管最先进的模型如 GPT-4.5 和 Claude-3.5 仍存在过度拒绝问题,但通过上下文感知的合成数据微调和对抗性多智能体方法,FalseReject 在多个方面显示出突出价值:

它可以有效改进 AI 模型的判断能力,为 AI 系统性能评估提供新的维度,精准诊断模型在不同领域的过度敏感倾向,并能针对性地提升 AI 在特定场景下的表现。

这种全方位的优化方案,配合其在保持安全性的同时显著降低不必要拒绝的特点,为 AI 系统的实际应用提供了更可靠的解决方案。