Anthropic发布Claude AI价值观研究报告：实用与知识导向占主导

Anthropic公司最新研究“Values in the Wild”揭示了其AI助手Claude在实际交互中的价值观表达特征。研究基于2025年2月收集的70万条匿名对话数据，通过隐私保护框架CLIO分析发现，Claude 3.5 Sonnet模型展现了3307种AI价值观，与人类判断一致率达98.8%。

价值观被归纳为实用性、知识性、社会性、保护性和个人性五类，其中实用与知识导向占比过半，体现效率、逻辑等特质。研究还指出，Claude的价值观与Anthropic的HHH原则（Helpful、Honest、Harmless）高度契合，但也检测到少量负面倾向，可能源于用户“越狱”尝试。

值得注意的是，Claude的回应呈现情境依赖性，如在健康话题中强调“界限”，历史讨论中注重准确性。此外，43%的交互会强化用户表达的价值观，仅5.4%会直接抵制不道德请求。