仅需1/10 Token消耗!百灵Ling-2.6-flash正式发布:104B参数实现SOTA级Agent
快科技4月22日消息,今日,
据
据了解,Ling-2.6-flash沿用了Ling2.5的混合线性架构设计,这种高度稀疏化的MoE架构在硬件表现上优势明显。
在4卡H20条件下推理速度最快可达到340tokens/s,Prefill吞吐达到Nemotron-3-Super的2.2倍。
在OutputSpeed测评中,Ling-2.6-flash以215tokens/s的稳定输出速度位列同参数级别模型的
从Token消耗来看,Ling-2.6-flash的智效比显著提升。
在ArtificialAnalysis完整测评中,Ling-2.6-flash总消耗为15Mtokens,而Nemotron-3-Super等模型达到或超过110Mtokens。这意味着,Ling-2.6-flash仅用约1/10的token消耗完成了同类评测任务。
Ling-2.6-flash面向Agent场景进行了定向增强,在控制Token消耗的前提下,依然保持了极强的任务执行力,模型在BFCL-V4、TAU2-bench、SWE-benchVerified、Claw-Eval、PinchBench等Agent相关基准上达到同尺寸SOTA水平。
与此同时,Ling-2.6-flash在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准。
API定价方面,Ling-2.6-flash输入每百万tokens定价0.1美元,输出0.3美元。目前,Ling-2.6-flash的API已正式向用户开放,并提供为期一周的限时免费试用。
用户可以通过OpenRouter、百灵大模型tbox获取对应服务。据了解,该模型后续将通过蚂蚁数科发布商业版本LingDT,服务全球开发者及中小企业。
