新闻中心News

微软开源统一语音识别模型 VibeVoice-ASR，专为长音频设计

作者：花韻仙語 | 点击: | 来源：花韻仙語

2201
2026

微软开源了参数量达90亿的全新统一语音识别模型VibeVoice-ASR，该模型专为长时音频理解设计，可一次性处理最长60分钟的连续语音流，并在单次推理中直接输出结构化转录结果——包含说话人身份标识、毫秒级精确时间戳及对应文本内容。此外，模型支持用户灵活注入领域专属热词，从而增强对专业术语、专有名词或上下文敏感词汇的识别鲁棒性。VibeVoice-ASR的核心能力亮点：原生支持长达60分钟的端到端音频处理：区别于传统自动语音识别（ASR）模型需将长音频切分为数秒级短片段（易造成上下文断裂与...

微软开源了参数量达 90 亿的全新统一语音识别模型 vibevoice-asr，该模

型专为长时音频理解设计，可一次性处理最长 60 分钟的连续语音流，并在单次推理中直接输出结构化转录结果——包含说话人身份标识、毫秒级精确时间戳及对应文本内容。此外，模型支持用户灵活注入领域专属热词，从而增强对专业术语、专有名词或上下文敏感词汇的识别鲁棒性。

VibeVoice-ASR 的核心能力亮点：

原生支持长达 60 分钟的端到端音频处理：区别于传统自动语音识别（ASR）模型需将长音频切分为数秒级短片段（易造成上下文断裂与说话人混淆），VibeVoice-ASR 原生适配最大长度为 64K token 的音频序列，完整覆盖一小时语音，保障跨时段说话人一致性建模与语义连贯性建模。
可配置热词引导机制：用户可通过简单接口传入自定义热词列表（如企业名称、产品型号、学术概念等），模型在解码阶段动态强化相关词元概率，显著提升垂直场景下的识别精度。
三位一体结构化输出（Who-When-What）：模型深度融合语音识别、声纹区分与时间定位能力，同步完成说话人分离、起止时间标注与文本转写，最终生成清晰可解析的「谁在何时说了什么」格式结果。

模型整体架构如下：

开源地址

https://www./link/c165343f46d5946c6f76c58a5ed0f52c
https://www./link/4d0d3acf6bc4d8f28d53f73a2879dc3e

欢迎光临，我们是一家专注中小型企业营销推广服务的公司！

专注企业电商网络营销推广！免费电商SEO诊断，你可信任的网络推广专家

微软开源统一语音识别模型 VibeVoice-ASR，专为长音频设计