OpenAI 近日宣布启动先锋计划(OpenAI Pioneers Program),旨在改善当前AI模型的评估方式。现有基准测试存在缺陷,难以真实反映模型在实际场景中的表现,尤其在法律、金融、医疗等高风险领域。该计划将与多家公司合作,开发定制化基准测试,专注于特定领域的实际需求。
OpenAI 强调,通过强化微调技术优化模型性能,首批参与者将以初创企业为主,聚焦高价值应用案例。此举意在创建更贴近现实的评估标准,弥补现有测试侧重复杂任务或易被操纵的不足。然而,由 OpenAI 资助的基准测试是否会被广泛接受仍存争议,可能引发关于道德和公正性的讨论。