简介
VibeVoice是微软开源的前沿语音AI框架,刚上GitHub Trending就炸了——一天涨了1600多星。这东西厉害在哪?它把语音识别和语音合成这两个硬骨头啃得挺漂亮:ASR能一口气处理60分钟长音频,TTS能生成90分钟的连续语音。对于做播客转写、有声书生成、多人对话场景的玩家来说,这套组合拳值得研究。
核心功能
VibeVoice-ASR(语音识别):单次处理最长60分钟音频,自动识别谁在什么时候说了什么,支持50+种语言,还能加载自定义热词提高专业领域准确率。已集成到Hugging Face Transformers库,import就能跑。
VibeVoice-TTS(语音合成):最长生成90分钟连续语音,支持4个不同说话者同时登场,中英文都行。论文被ICLR 2026录用了,技术层面是认真的。
VibeVoice-Realtime(实时TTS):0.5B参数的轻量模型,首字延迟约300毫秒,支持流式输入。适合对话机器人、实时播报这类对延迟敏感的场景。
价格方案
| 方案 | 价格 | 功能限制 |
|---|---|---|
| 开源版 | ¥0 | 模型全开,需自部署GPU |
| Playground | ¥0 | 在线体验,有调用限制 |
| 云服务 | 按量计费 | 微软Azure(待官方支持) |
💡 官方Playground和Colab笔记本都可以免费试用,建议先玩玩再决定要不要自己部署 CPS链接:VibeVoice Playground →
优缺点对比
| 优点 | 缺点 |
|---|---|
| 完全开源,模型权重可下载 | 部署需要GPU资源(ASR 7B显存要求较高) |
| 长音频处理能力业内领先 | 官方云服务还没上线 |
| 多语言支持,中文效果不错 | 社区生态还在建设中 |
| 微软背书,持续迭代有保障 | TTS代码因合规原因已下架 |
适合人群
推荐给:播客、访谈类内容的创作者(ASR转写确实好用);有声书、多角色配音需求的人;做语音AI研究的学生和开发者;需要本地部署语音能力的企业。
不推荐:没有GPU资源又不想花钱租云主机的;只需要简单短语音转写的轻度用户(用免费的Whisper更省事)。
使用教程
ASR快速上手(Hugging Face方式)
from transformers import AutoModel, AutoProcessor
import torch
# 加载模型
model = AutoModel.from_pretrained("microsoft/VibeVoice-ASR", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR")
# 处理音频
inputs = processor(audio_path, return_tensors="pt")
outputs = model.generate(**inputs)
result = processor.decode(outputs[0])
print(result) # 输出:谁-何时-说什么的结构化结果
Realtime TTS在线体验
- 打开官方Colab笔记本
- 运行安装单元格
- 输入你想转成语音的文字
- 选择说话者风格(现支持9种语言+11种英文风格)
- 点击生成,下载音频
自定义热词提升识别率
# 比如你的音频里有大量专业术语
hotwords = ["RAG", "LangChain", "Vector Database", "Embedding"]
result = model.transcribe(audio_path, hotwords=hotwords)
购买建议
做语音相关产品的,这套工具值得花时间研究。ASR的长音频能力确实能解决很多痛点——以前得把音频切成小块再拼,现在直接扔进去就行。Realtime模型的300毫秒延迟也很适合实时场景。
不过TTS部分目前官方代码已下架(合规原因),想用的话得去Hugging Face下旧版权重。我个人建议观望一下,看后续会不会重新开放。
个人玩家先用免费的Playground和Colab玩明白再考虑自建。企业用户可以等等看Azure会不会出托管服务,省得自己折腾GPU集群。
🎯 官方链接:VibeVoice GitHub → | ASR Playground → | Colab体验 →
