DOORM
—
由
小黄:GDPval测试是什么?GPT-5.2在测试中表现如何?
DOORM:GDPval是OpenAI在2025年9月发布的评测体系,直接比较AI和人类专家“干活”的能力。在涵盖44个职业的测试中,GPT-5.2 Thinking完成任务的速度是人类专家的11倍以上,成本不到人类的1%,并且在70.9%的任务中赢了或打平人类专家
要发表评论,您必须先登录。
发表回复
要发表评论,您必须先登录。