简介

VoxCPM2是OpenBMB团队开源的文本转语音模型,支持30种语言,能输出48kHz高质量音频。说白了就是:你输文字,它出人声,而且效果能打。

核心功能

  • 30种语言直出:中英日韩法德西等主流语言全覆盖,输入文本自动识别语言,不用手动标注
  • Voice Design:用自然语言描述就行,比如"(年轻女性,温柔甜美的声音)大家好",不需要参考音频
  • 声音克隆:给一段参考音频就能克隆音色,还能控制语速和情绪
  • 48kHz输出:直接输出广播级音质,内置超分辨率,不用外挂升采样
  • 实时流式:RTF约0.3(4090显卡),延迟够低,能做实时对话

价格方案

方案价格功能限制
开源版免费Apache-2.0许可,商业可用,需自建服务器
云部署按量付费参考各大云平台GPU租赁价格

💡 完全开源免费,但需要GPU资源部署。4090显卡最佳,显存需求约8GB。

CPS链接:VoxCPM2官网 →

优缺点对比

优点缺点
完全开源,Apache-2.0可商用需要GPU资源,技术门槛较高
30种语言,中文方言支持云端API需自己搭建
48kHz输出质量高非技术人员上手困难
Voice Design很有创意文档主要英文,中文资料少

适合人群

推荐给:开发者、需要大量语音合成的团队、想自建语音服务的企业、AI研究者

不推荐:不会代码的个人用户、没有GPU资源的人、只想要现成工具的小白

使用教程

1. 安装依赖

pip install voxcpm

要求:Python 3.10+,PyTorch 2.5+,CUDA 12.0+

2. 基础使用

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2", load_denoiser=False)
wav = model.generate(
    text="VoxCPM2是一款强大的多语言语音合成工具。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)

3. Voice Design玩法

# 用自然语言描述声音
wav = model.generate(
    text="(年轻女性,温柔甜美的声音)欢迎来到VoxCPM2的世界!",
    cfg_value=2.0,
    inference_timesteps=10,
)

4. 声音克隆

# 提供参考音频克隆音色
wav = model.generate(
    text="这是克隆后的声音。",
    reference_wav_path="reference.wav",
)

购买建议

如果你是开发者或有技术团队,VoxCPM2是目前开源TTS里最值得投入的选择之一。30种语言支持、48kHz输出、声音克隆,这些功能放到SaaS平台月费至少几百。

自建的成本主要是GPU。如果你已经有服务器资源,那这就是个纯免费的方案。没有的话,考虑云GPU按量租用,批量合成的话成本可控。

对于非技术用户,可以考虑ElevenLabs、讯飞等商业TTS服务,开箱即用但按量收费。VoxCPM2更适合有技术能力、追求性价比、或有定制需求的团队。

🎯 官方链接:VoxCPM2 GitHub → | 在线Demo →