简介
VoxCPM2是OpenBMB团队开源的文本转语音模型,支持30种语言,能输出48kHz高质量音频。说白了就是:你输文字,它出人声,而且效果能打。
核心功能
- 30种语言直出:中英日韩法德西等主流语言全覆盖,输入文本自动识别语言,不用手动标注
- Voice Design:用自然语言描述就行,比如"(年轻女性,温柔甜美的声音)大家好",不需要参考音频
- 声音克隆:给一段参考音频就能克隆音色,还能控制语速和情绪
- 48kHz输出:直接输出广播级音质,内置超分辨率,不用外挂升采样
- 实时流式:RTF约0.3(4090显卡),延迟够低,能做实时对话
价格方案
| 方案 | 价格 | 功能限制 |
|---|---|---|
| 开源版 | 免费 | Apache-2.0许可,商业可用,需自建服务器 |
| 云部署 | 按量付费 | 参考各大云平台GPU租赁价格 |
💡 完全开源免费,但需要GPU资源部署。4090显卡最佳,显存需求约8GB。
优缺点对比
| 优点 | 缺点 |
|---|---|
| 完全开源,Apache-2.0可商用 | 需要GPU资源,技术门槛较高 |
| 30种语言,中文方言支持 | 云端API需自己搭建 |
| 48kHz输出质量高 | 非技术人员上手困难 |
| Voice Design很有创意 | 文档主要英文,中文资料少 |
适合人群
推荐给:开发者、需要大量语音合成的团队、想自建语音服务的企业、AI研究者
不推荐:不会代码的个人用户、没有GPU资源的人、只想要现成工具的小白
使用教程
1. 安装依赖
pip install voxcpm
要求:Python 3.10+,PyTorch 2.5+,CUDA 12.0+
2. 基础使用
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained("openbmb/VoxCPM2", load_denoiser=False)
wav = model.generate(
text="VoxCPM2是一款强大的多语言语音合成工具。",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)
3. Voice Design玩法
# 用自然语言描述声音
wav = model.generate(
text="(年轻女性,温柔甜美的声音)欢迎来到VoxCPM2的世界!",
cfg_value=2.0,
inference_timesteps=10,
)
4. 声音克隆
# 提供参考音频克隆音色
wav = model.generate(
text="这是克隆后的声音。",
reference_wav_path="reference.wav",
)
购买建议
如果你是开发者或有技术团队,VoxCPM2是目前开源TTS里最值得投入的选择之一。30种语言支持、48kHz输出、声音克隆,这些功能放到SaaS平台月费至少几百。
自建的成本主要是GPU。如果你已经有服务器资源,那这就是个纯免费的方案。没有的话,考虑云GPU按量租用,批量合成的话成本可控。
对于非技术用户,可以考虑ElevenLabs、讯飞等商业TTS服务,开箱即用但按量收费。VoxCPM2更适合有技术能力、追求性价比、或有定制需求的团队。
🎯 官方链接:VoxCPM2 GitHub → | 在线Demo →
