VoxCPM2评测：开源多语言AI语音合成方案详解

简介

VoxCPM2是OpenBMB团队开源的AI语音合成工具，支持30种语言、48kHz高保真输出，能做声音克隆和语音设计。2B参数量，Apache-2.0许可证，可商用。

核心功能

30语言支持：中英日韩、欧洲主流语言、东南亚语言等，输入文本自动识别语言，不需要手动标注
Voice Design声音设计：用自然语言描述就能生成声音，比如"(年轻女性，温柔甜美)大家好"，不需要参考音频
可控声音克隆：上传一段参考音频就能克隆音色，还能用指令控制语速、情绪、风格
终极克隆模式：提供参考音频+对应文本，模型能完整复制音色、节奏、情绪等所有细节
48kHz高保真输出：输出录音棚级别的音频质量，不需要额外升采样
实时流式生成：RTF低至0.13（RTX 4090），支持流式输出

价格方案

方案	价格	功能限制
开源版	¥0	完整功能，Apache-2.0商用许可
Nano-VLLM加速版	¥0	需要额外安装加速引擎

💡 完全免费开源，权重和代码都在Apache-2.0下发布，可自由商用 GitHub开源地址 →

优缺点对比

优点	缺点
完全开源免费，可商用	需要8GB显存起步
支持30种语言，覆盖面广	英文效果最佳，小语种有波动
声音克隆效果出色	部署有一定技术门槛
48kHz高保真输出	首次加载模型较慢
支持实时流式生成	中文方言支持有限

适合人群

推荐给：

视频创作者（配音、旁白）
播客/有声书制作者
多语言内容创作者
有本地部署需求的开发者
想用AI语音又不想付订阅费的团队

不推荐：

没有GPU设备的用户
不想折腾部署的小白用户
只需要简单TTS功能的轻度用户

使用教程

安装

pip install voxcpm

要求：Python ≥ 3.10，PyTorch ≥ 2.5.0，CUDA ≥ 12.0

基础使用

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")

wav = model.generate(
    text="VoxCPM2支持中英文混合输入。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)

声音设计

wav = model.generate(
    text="(年轻女性，温柔甜美的声音)欢迎使用VoxCPM2！",
    cfg_value=2.0,
)

声音克隆

wav = model.generate(
    text="这是克隆后的声音。",
    reference_wav_path="reference.wav",
)

生产环境部署

pip install nano-vllm-voxcpm

使用Nano-VLLM加速引擎，RTF可降至0.13，支持并发请求。

购买建议

VoxCPM2是开源免费的，不需要购买。但部署需要：

GPU要求：8GB显存起步，推荐RTX 4090或更高
部署方式：本地部署或云服务器
云服务器成本：按需GPU实例约¥2-5/小时

如果你是内容创作者，需要大量配音但不想付订阅费，VoxCPM2值得投入时间部署。一次性部署成本换来无限使用的语音合成能力。

对于商业项目，Apache-2.0许可证意味着你可以自由商用，没有 royalties 或额外费用。

🎯 官方链接：VoxCPM GitHub →
在线体验：HuggingFace Demo →

简介#

核心功能#

价格方案#

优缺点对比#

适合人群#

使用教程#

安装#

基础使用#

声音设计#

声音克隆#

生产环境部署#

购买建议#

简介