MIT研究揭示AI缺乏连贯价值观，对齐挑战引关注

麻省理工学院（MIT）最新研究驳斥了此前关于人工智能（AI）可能形成独立“价值体系”的猜测，指出当前AI模型并不具备稳定、连贯的价值观。研究团队测试了来自Meta、谷歌、Mistral、OpenAI和Anthropic的多个先进模型，发现其观点和偏好会因提示措辞而大幅波动，表现出高度不一致性。

共同作者、MIT博士生斯蒂芬・卡斯珀表示，AI本质上是模仿系统，其回应多为“捏造”或“轻率”的产物，而非基于内在信念。这一发现为AI“对齐”工作带来新挑战——若模型无法内化人类价值观，确保其行为可靠将更为复杂。研究强调，当前AI的不可预测性需引起业界重视。