MIT研究揭示AI缺乏连贯价值观,对齐挑战引关注

麻省理工学院(MIT)最新研究驳斥了此前关于人工智能(AI)可能形成独立“价值体系”的猜测,指出当前AI模型并不具备稳定、连贯的价值观。研究团队测试了来自Meta、谷歌、Mistral、OpenAI和Anthropic的多个先进模型,发现其观点和偏好会因提示措辞而大幅波动,表现出高度不一致性。

共同作者、MIT博士生斯蒂芬・卡斯珀表示,AI本质上是模仿系统,其回应多为“捏造”或“轻率”的产物,而非基于内在信念。这一发现为AI“对齐”工作带来新挑战——若模型无法内化人类价值观,确保其行为可靠将更为复杂。研究强调,当前AI的不可预测性需引起业界重视。

上一篇:

下一篇: