欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

微软开源统一语音识别模型 VibeVoice-ASR,专为长音频设计

作者:花韻仙語 | 点击: | 来源:花韻仙語
2201
2026
微软开源了参数量达90亿的全新统一语音识别模型VibeVoice-ASR,该模型专为长时音频理解设计,可一次性处理最长60分钟的连续语音流,并在单次推理中直接输出结构化转录结果——包含说话人身份标识、毫秒级精确时间戳及对应文本内容。此外,模型支持用户灵活注入领域专属热词,从而增强对专业术语、专有名词或上下文敏感词汇的识别鲁棒性。VibeVoice-ASR的核心能力亮点:原生支持长达60分钟的端到端音频处理:区别于传统自动语音识别(ASR)模型需将长音频切分为数秒级短片段(易造成上下文断裂与...

微软开源了参数量达 90 亿的全新统一语音识别模型 vibevoice-asr,该模

型专为长时音频理解设计,可一次性处理最长 60 分钟的连续语音流,并在单次推理中直接输出结构化转录结果——包含说话人身份标识、毫秒级精确时间戳及对应文本内容。此外,模型支持用户灵活注入领域专属热词,从而增强对专业术语、专有名词或上下文敏感词汇的识别鲁棒性。

VibeVoice-ASR 的核心能力亮点:

  • 原生支持长达 60 分钟的端到端音频处理:区别于传统自动语音识别(ASR)模型需将长音频切分为数秒级短片段(易造成上下文断裂与说话人混淆),VibeVoice-ASR 原生适配最大长度为 64K token 的音频序列,完整覆盖一小时语音,保障跨时段说话人一致性建模与语义连贯性建模。
  • 可配置热词引导机制:用户可通过简单接口传入自定义热词列表(如企业名称、产品型号、学术概念等),模型在解码阶段动态强化相关词元概率,显著提升垂直场景下的识别精度。
  • 三位一体结构化输出(Who-When-What):模型深度融合语音识别、声纹区分与时间定位能力,同步完成说话人分离、起止时间标注与文本转写,最终生成清晰可解析的「谁 在 何时 说了什么」格式结果。

模型整体架构如下:

开源地址

https://www./link/c165343f46d5946c6f76c58a5ed0f52c
https://www./link/4d0d3acf6bc4d8f28d53f73a2879dc3e

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询