【AI 核心摘要】
随着智能体(Agent)能力成熟,Token消耗激增成为大模型落地的核心矛盾。Agent任务输入长度较传统聊天提升两个数量级,频繁工具调用和长程执行也拉长输出链路,带来更高推理算力压力和用户成本。为此,Ling-2.6-flash(104B总参数量,7.4B激活参数)应运而生,它不依赖更长输出,而是通过混合线性架构、Token效率优化和Agent场景定向增强,实现更快、更省、更适合真实业务。在4卡H20下推理速度达340 tokens/s,Prefill吞吐为Nemotron-3-Super的2.2倍;仅消耗15M tokens完成评测,约为同类模型的1/10;在BFCL-V4等Agent基准上达同尺寸SOTA水平。该模型追求智能与成本的平衡,为开发者提供更低推理成本和更高部署效率。
了解更多详细信息,请访问原文:代号为 Elephant Alpha 的匿名模型正式揭晓:Ling-2.6-flash
数据来源:AI Bot
© 版权声明
文章版权归作者所有,未经允许请勿转载。

