简介
VoxCPM2是OpenBMB团队开源的AI语音合成工具,支持30种语言、48kHz高保真输出,能做声音克隆和语音设计。2B参数量,Apache-2.0许可证,可商用。
核心功能
- 30语言支持:中英日韩、欧洲主流语言、东南亚语言等,输入文本自动识别语言,不需要手动标注
- Voice Design声音设计:用自然语言描述就能生成声音,比如"(年轻女性,温柔甜美)大家好",不需要参考音频
- 可控声音克隆:上传一段参考音频就能克隆音色,还能用指令控制语速、情绪、风格
- 终极克隆模式:提供参考音频+对应文本,模型能完整复制音色、节奏、情绪等所有细节
- 48kHz高保真输出:输出录音棚级别的音频质量,不需要额外升采样
- 实时流式生成:RTF低至0.13(RTX 4090),支持流式输出
价格方案
| 方案 | 价格 | 功能限制 |
|---|---|---|
| 开源版 | ¥0 | 完整功能,Apache-2.0商用许可 |
| Nano-VLLM加速版 | ¥0 | 需要额外安装加速引擎 |
💡 完全免费开源,权重和代码都在Apache-2.0下发布,可自由商用 GitHub开源地址 →
优缺点对比
| 优点 | 缺点 |
|---|---|
| 完全开源免费,可商用 | 需要8GB显存起步 |
| 支持30种语言,覆盖面广 | 英文效果最佳,小语种有波动 |
| 声音克隆效果出色 | 部署有一定技术门槛 |
| 48kHz高保真输出 | 首次加载模型较慢 |
| 支持实时流式生成 | 中文方言支持有限 |
适合人群
推荐给:
- 视频创作者(配音、旁白)
- 播客/有声书制作者
- 多语言内容创作者
- 有本地部署需求的开发者
- 想用AI语音又不想付订阅费的团队
不推荐:
- 没有GPU设备的用户
- 不想折腾部署的小白用户
- 只需要简单TTS功能的轻度用户
使用教程
安装
pip install voxcpm
要求:Python ≥ 3.10,PyTorch ≥ 2.5.0,CUDA ≥ 12.0
基础使用
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate(
text="VoxCPM2支持中英文混合输入。",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)
声音设计
wav = model.generate(
text="(年轻女性,温柔甜美的声音)欢迎使用VoxCPM2!",
cfg_value=2.0,
)
声音克隆
wav = model.generate(
text="这是克隆后的声音。",
reference_wav_path="reference.wav",
)
生产环境部署
pip install nano-vllm-voxcpm
使用Nano-VLLM加速引擎,RTF可降至0.13,支持并发请求。
购买建议
VoxCPM2是开源免费的,不需要购买。但部署需要:
- GPU要求:8GB显存起步,推荐RTX 4090或更高
- 部署方式:本地部署或云服务器
- 云服务器成本:按需GPU实例约¥2-5/小时
如果你是内容创作者,需要大量配音但不想付订阅费,VoxCPM2值得投入时间部署。一次性部署成本换来无限使用的语音合成能力。
对于商业项目,Apache-2.0许可证意味着你可以自由商用,没有 royalties 或额外费用。
🎯 官方链接:VoxCPM GitHub →
在线体验:HuggingFace Demo →
