简介

微软开源了一套语音AI模型,叫VibeVoice。今天GitHub上一天涨了2400多星,热度挺高的。核心卖点是:能一口气处理60分钟的音频,还能识别是谁说的、什么时候说的。

简单说,就是给播客、会议录音做转写的。跟那些把音频切成小段再拼起来的方案不一样,它直接吞整段,说话人不会乱。

核心功能

VibeVoice-ASR(语音转文字)

  • 单次处理60分钟音频,不用切分
  • 自动识别说话人、打时间戳
  • 支持50多种语言,中文、英文、日文、韩文都行
  • 能喂"热词"提高识别准确率,比如专业术语、人名

VibeVoice-TTS(文字转语音)

  • 最多生成90分钟的语音
  • 支持4个说话人,能模拟对话
  • 已经被微软下架了——因为有人拿它做坏事

VibeVoice-Realtime(实时TTS)

  • 0.5B参数,轻量级
  • 300毫秒出声,适合做实时语音助手
  • 流式输入,边打字边播

价格方案

方案价格功能限制
开源版免费需自己部署,要有GPU
HuggingFace在线试玩免费有额度限制
微软Playground免费需登录微软账号

这个是纯开源项目,没有商业授权。模型权重在HuggingFace上,代码在GitHub上。想用就得自己搭服务器,显卡建议A100或者4090起步。

优缺点对比

优点缺点
微软出品,技术靠谱需要GPU,门槛不低
长音频单次处理,不用切片TTS代码已被移除
50+语言,中文支持仅限研究用途,不能商用
已集成到Transformers库文档不算太详细
支持热词定制部署需要一定工程能力

适合人群

推荐给:

  • 做播客、会议转写的开发者
  • 需要长音频处理的语音项目
  • 有GPU资源的研究团队
  • 想自己搭语音识别服务的

不推荐:

  • 没有技术背景的普通用户
  • 想直接商用赚钱的
  • 没有显卡资源的学生党

使用教程

方式一:HuggingFace在线体验

  1. 访问 https://huggingface.co/microsoft/VibeVoice-ASR
  2. 点击"Files and versions",找到demo入口
  3. 上传音频文件测试

方式二:本地部署

# 安装依赖
pip install transformers torch

# Python代码
from transformers import AutoModel
model = AutoModel.from_pretrained("microsoft/VibeVoice-ASR", trust_remote_code=True)

# 推理
result = model.transcribe("your_audio.mp3")

方式三:Playground体验

  1. 访问 https://aka.ms/vibevoice-asr
  2. 用微软账号登录
  3. 上传音频体验完整功能

购买建议

这个项目不适合"买",因为没有付费版。适合不适合你,看这三点:

  1. 有没有GPU? 没有的话,在线试玩就够了,本地部署别想了
  2. 用途是啥? 纯研究、学习,没问题;想做成产品卖钱,不行,许可证不允许
  3. 技术能力如何? 会Python、懂Transformers,可以玩玩;纯小白,先看看文档再说

总结:微软开源的好东西,但门槛摆在那。有条件的研究者值得深入,普通用户等别人做成产品再用吧。

官方链接:VibeVoice官网 | GitHub仓库 | HuggingFace模型