在快速发展的人工智能(AI)领域,基准评估的可靠性一直是一个备受关注的问题。许多AI实验室,包括OpenAI,均表示现有的基准评估系统存在缺陷。为此,OpenAI宣布推出Pioneers Program,旨在创建更高效、贴近现实的AI评分标准。
重新定义AI基准
OpenAI指出,随着AI在各行业的迅速应用,理解并提升其实际影响显得尤为重要。Pioneers Program目标明确,即创造“设置标准的评估”,帮助评估模型在实际、高风险环境中的表现。
最近围绕Crowdsourced基准LM Arena和Meta的Maverick模型的争议显示,现有的评估方式往往只关注一些晦涩的任务,比如解决博士级别的数学问题。这种状况使得区分不同AI模型的能力非常困难,甚至容易被“游戏化”,从而导致评估结果的失真。
针对特定领域的评估
通过Pioneers Program,OpenAI计划开发针对法律、金融、保险、医疗和会计等领域的特定基准评估。未来几个月,OpenAI将与多家公司合作,设计量身定制的评估,并最终公开这些行业特定的基准与评估结果。
OpenAI在其博客中提到:“首个参与者将专注于那些在真实世界中能产生重大影响的应用案例的初创企业,以帮助奠定Pioneers Program的基础。”这些初创企业将在计划中与OpenAI团队合作,通过强化学习微调技术优化模型的表现,专注于狭窄任务集的提升。
道德与接受度的挑战
尽管OpenAI在资助基准评估方面已有前期努力,其最新合作模式仍引发了AI社区对于基准评估公正性的深思。如果AI测试由OpenAI资助并与客户共同发布,是否会影响评估结果的独立性,成为一个亟待解答的问题。