阿里千问发布新一代Agent及DeepPlanning基准测试并开源至HuggingFace

IT之家 2026-02-07 09:07:08
A+ A-

近日,阿里千问推出新一代智能体Agent,并同步发布专为复杂规划任务设计的基准测试工具DeepPlanning,相关代码与数据集已在HuggingFace平台开源。据官方消息,此次发布旨在为Agent在长程推理、任务拆解与多步执行方面的能力评估提供统一、可复现的标准,帮助研究者与开发者更客观地衡量不同模型在规划类任务上的表现。DeepPlanning基准覆盖多种现实情境的决策链条,强调对逻辑推理、资源分配与动态调整的综合检测,被阿里千问视为推动Agent技术迭代与应用落地的重要基础设施,在开源社区与AI研究圈中引起对评估方法标准化的较多关注。

消息称,新一代Agent在架构上强化了环境感知与历史状态记忆的融合能力,可根据目标自动生成阶段性子任务并实时修正执行路径。配套的DeepPlanning基准测试包含一系列逐步递进的规划场景,从单目标静态规划到多约束动态环境下的序列决策,均设有可量化的性能指标与参考答案。官方声明,该基准在设计时参考了实际工业与科研中的复杂任务流程,以确保测试结果能反映模型在近似真实条件下的规划稳健性。现场观察显示,开源内容涵盖测试脚本、样例数据、评估指标说明及可扩展的任务生成接口,方便使用者快速集成到自有实验环境中。

该发布在AI Agent研究与工程应用领域引发对评估体系完善的讨论,被视为国内大模型团队在智能体能力量化与共享测评资源上的参考样本。与以往依赖自定义小规模测试或单一任务评测的做法相比,DeepPlanning提供多场景、多层级的统一标准,促使开发者在模型优化时拥有更明确的对标依据,也有助于跨团队比较不同技术路线的规划性能。对于产业界,这类开源基准可降低重复构建测评环境的成本,加快从实验室成果到实际系统的转化节奏。

此次推出新一代Agent与开源DeepPlanning基准,体现出阿里千问在智能体技术研发与生态共建上的双线推进策略,既提升自身模型在复杂任务上的可控性与可评估性,也为行业提供可共享的测评工具。后续可关注该基准在学术与产业社区的采纳情况、社区贡献的扩展用例,以及Agent在更多实际业务场景中的部署效果,这将影响智能体技术评估标准化的进程与跨领域应用的可信度建设。

Tags:阿里千问
责任编辑:Diy92
点击查看全文(剩余0%)

热点新闻

精彩推荐