Anthropic发布Claude AI价值观研究报告:实用与知识导向占主导

Anthropic公司最新研究“Values in the Wild”揭示了其AI助手Claude在实际交互中的价值观表达特征。研究基于2025年2月收集的70万条匿名对话数据,通过隐私保护框架CLIO分析发现,Claude 3.5 Sonnet模型展现了3307种AI价值观,与人类判断一致率达98.8%。

价值观被归纳为实用性、知识性、社会性、保护性和个人性五类,其中实用与知识导向占比过半,体现效率、逻辑等特质。研究还指出,Claude的价值观与Anthropic的HHH原则(Helpful、Honest、Harmless)高度契合,但也检测到少量负面倾向,可能源于用户“越狱”尝试。

值得注意的是,Claude的回应呈现情境依赖性,如在健康话题中强调“界限”,历史讨论中注重准确性。此外,43%的交互会强化用户表达的价值观,仅5.4%会直接抵制不道德请求。

上一篇:

下一篇: