开源强化进修框架 AReaL v0.5.0 宣布，新增解耦式 Agentic RL

34 阅读 0 评论 0 点赞

AReaL 是一个面向算法设计，以开辟效力和灵活性为核心的强化进修框架，由蚂蚁百灵大年夜模型团队开源。它经由过程极简的 API 和可扩大的插件机制降低用户的进修曲线和运居心智包袱，闪开辟者聚焦于算法本身而非体系细节，具备大年夜范围扩大、无侵入 Agentic RL、故障感知与自恢复等才能。

该项目近日宣布新版本 v0.5.0，带来懂得耦式 Agentic RL，以及 Single Controller 架构两个核心特点。

解耦式 Agentic RL

AReaL 经由过程 OpenAI API 代理，供给了一套解耦化的智能体练习办事解决筹划，便于情况供给者、算法开辟者和体系开辟者形成复杂工程中的零障碍流水线，极大年夜晋升了开辟效力与体系可保护性。

Single Controller 架构

1. Agent 完全自力运行（Agent Autonomy）

在 AReaL 框架中，Agent 本身不依附任何 RL 框架的组件，也不感知自身正在被用于练习。它只是一个标准的、基于大年夜说话模型（LLM）的决定计划体系，按照既定的编排逻辑接收输入、调用对象、生成动作并输出成果。这种设计确保了 Agent 的纯净性与可移植性——同一个 Agent 实现既可以用于在线推理，也可以无缝接入离线练习，真正做到"一套代码，两处复用"。

AReaL Agentic RL 的架构设计建立在两个核心原则之上：

2. RL 练习作为外部不雅察者（RL as Observer）

AReaL 不主动干涉 Agent 的履行流程，而是经由过程"代理请求"的方法，监听并记录 Agent 与情况交互的完全轨迹（Trajectory）。这些轨迹包含：用户输入、Agent 的思维链（Thought）、调用的动作（Action）、情况反馈（Observation）以及最终的嘉奖旌旗灯号（Reward）。经由过程这种方法，AReaL 将复杂的 Agent 履行过程转化为标准的 RL 练习数据，从而可以应用随便率性成熟的 RL 算法进行策略优化。

清除了 SPMD (Single Program, Multiple Data) 模式的长尾和数据不平均问题，这种分层设计既能晋升推理扩大性、加强体系层面精细化控制，又能保存算法编排的灵活易用性，降低算法开辟者代码迁徙的成本。

Single Controller 架构如下：

下载地址：https://github.com/inclusionAI/AReaL/releases/tag/v0.5.0

点赞(0) 打赏

本文分类：互联网
本文标签：AReaL 开源强化学习框架 AReaL v0.5.0 发布，新增解耦式 Agentic RL
浏览次数：34 次浏览
发布日期：2025-12-16 19:28:07
本文链接：https://fqpy.com/index.php/internet/1084

上一篇 > Let’s Encrypt 将启用新一代证手札任层级 Generation Y
下一篇 > IBM 宣布开源可设备通用 AI 智能体框架：CUGA

评论列表共有 0 条评论

暂无评论

开源强化进修框架 AReaL v0.5.0 宣布，新增解耦式 Agentic RL

开源强化进修框架 AReaL v0.5.0 宣布，新增解耦式 Agentic RL

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复