谷歌发布Gemini 3 Deep Think重大升级,该推理模式在多项高难度学术基准测试中取得突破性成绩,包括在“人类的最后考试”中创下48.4%的SOTA纪录,在ARC-AGI-2测试中获得84.6%的验证分数,并在Codeforces编程竞赛中达到相当于全球第八的3455 Elo分。其成本效益显著,单任务成本低至7.17美元,较此前模型降低数百倍。Deep Think已展示出在数学、物理、化学等科学领域的金牌级能力,并能辅助实际科研,如发现论文逻辑缺陷、优化材料制备工艺。该模式现已面向Google AI Ultra订阅用户及部分研究人员开放。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

