阿里开源端到端语音交互模型 Fun-Audio-Chat

279 阅读 0 评论 0 点赞

通义大年夜模型微信"大众,"号发文宣布，推出新一代端到端语音交互模型 Fun-Audio-Chat。“不是简单的“能聊天”，而是听得懂你的话、感知你的情感、还能帮你真正干活的AI语音搭子。”

今朝开源了 Fun-Audio-Chat 8B，包含模型权重、推理代码、Function Call 接入示例。

技巧表示：

端到端 S2S 架构：从语音输入直接生成语音输出，无需 ASR + LLM + TTS 多模块拼接，效力更高、延迟更低。
双分辨率设计：Shared LLM 层以 5Hz 帧率高效处理，SRH 以 25Hz 帧率生成高质量语音，GPU 计算开销降低近 50%。
百万小时多义务数据练习：覆盖音频懂得、语音问答、情感辨认、对象调用等真实场景，让模型更“接地气”。

高情商：像同伙一样的对话体验

你朝气时，它会安慰你；你焦炙时，它会陪你深呼吸；你高兴时，它会跟着你一路嗨。
哪怕你没直接说情感，它也能从你的语气、语速、逗留里，猜出你的心境，然后给出适可而止的回应。

易落地：它不仅能聊，还能“干实事”

Speech Function Call：你只需用天然语音下达指令，它就能主动调用函数，完成复杂义务。

测评成果显示，Fun-Audio-Chat 8B 在 OpenAudioBench、MMAU、Speech-ACEBench、VStyle 等多个威望榜单上，同尺寸模型排名第一，综合机能远超 GLM4-Voice、Kimi-Audio、Baichuan-Omni。

点赞(0) 打赏

本文分类：互联网
本文标签：阿里开源端到端语音交互模型 Fun-Audio-Chat
浏览次数：279 次浏览
发布日期：2025-12-23 19:31:34
本文链接：https://fqpy.com/internet/2610

上一篇 > 谷歌成立算力分派委员会，应对内部资本缺乏
下一篇 > MiniMax 开源视觉分词器扩大技巧 VTP

评论列表共有 0 条评论

暂无评论

发表评论取消回复

微信小程序

微信扫一扫体验

微信公众账号

微信扫一扫加关注

发表
评论返回
顶部