阿里巴巴通义Qwen团队宣布了最新的开源 QwenLong-L1.5 模型 ,主打超长高低文推理和记忆治理才能,构建于 Qwen3-30B-A3B-Thinking 模型之上,并加强记忆机制以处理超出其物理高低文窗口(256K)的义务。

QwenLong-L1.5三项核心立异:

1. 数据合成管线:开辟了新的合成流程,专注于创建须要多跳溯源和全局分布式证据推理的挑衅性义务,而非简单的“大年夜海捞针”义务。

2. 强化进修策略:引入了义务均衡采样(Task-balanced sampling)和自适应熵控策略优化(AEPO)等 RL 策略,以稳定长高低文练习。

3. 记忆治理框架:透过多阶段融合强化进修,在单次推理256 K 高低文窗口外,结合记忆更新机制处理更长义务在领先的长高低文基准测试中,QwenLong-L1.5 比其基线模型 Qwen3-30B-A3B-Thinking 平均赶过 9.9 分,机能可与 GPT-5 和 Gemini-2.5-Pro 等顶级模型媲美。

开源地址:https://github.com/Tongyi-Zhiwen/Qwen-Doc/tree/main/QwenLong-L1.5

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部