简介

VoxCPM2是OpenBMB团队开源的AI语音合成工具,支持30种语言、48kHz高保真输出,能做声音克隆和语音设计。2B参数量,Apache-2.0许可证,可商用。

核心功能

  • 30语言支持:中英日韩、欧洲主流语言、东南亚语言等,输入文本自动识别语言,不需要手动标注
  • Voice Design声音设计:用自然语言描述就能生成声音,比如"(年轻女性,温柔甜美)大家好",不需要参考音频
  • 可控声音克隆:上传一段参考音频就能克隆音色,还能用指令控制语速、情绪、风格
  • 终极克隆模式:提供参考音频+对应文本,模型能完整复制音色、节奏、情绪等所有细节
  • 48kHz高保真输出:输出录音棚级别的音频质量,不需要额外升采样
  • 实时流式生成:RTF低至0.13(RTX 4090),支持流式输出

价格方案

方案价格功能限制
开源版¥0完整功能,Apache-2.0商用许可
Nano-VLLM加速版¥0需要额外安装加速引擎

💡 完全免费开源,权重和代码都在Apache-2.0下发布,可自由商用 GitHub开源地址 →

优缺点对比

优点缺点
完全开源免费,可商用需要8GB显存起步
支持30种语言,覆盖面广英文效果最佳,小语种有波动
声音克隆效果出色部署有一定技术门槛
48kHz高保真输出首次加载模型较慢
支持实时流式生成中文方言支持有限

适合人群

推荐给:

  • 视频创作者(配音、旁白)
  • 播客/有声书制作者
  • 多语言内容创作者
  • 有本地部署需求的开发者
  • 想用AI语音又不想付订阅费的团队

不推荐:

  • 没有GPU设备的用户
  • 不想折腾部署的小白用户
  • 只需要简单TTS功能的轻度用户

使用教程

安装

pip install voxcpm

要求:Python ≥ 3.10,PyTorch ≥ 2.5.0,CUDA ≥ 12.0

基础使用

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")

wav = model.generate(
    text="VoxCPM2支持中英文混合输入。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)

声音设计

wav = model.generate(
    text="(年轻女性,温柔甜美的声音)欢迎使用VoxCPM2!",
    cfg_value=2.0,
)

声音克隆

wav = model.generate(
    text="这是克隆后的声音。",
    reference_wav_path="reference.wav",
)

生产环境部署

pip install nano-vllm-voxcpm

使用Nano-VLLM加速引擎,RTF可降至0.13,支持并发请求。

购买建议

VoxCPM2是开源免费的,不需要购买。但部署需要:

  1. GPU要求:8GB显存起步,推荐RTX 4090或更高
  2. 部署方式:本地部署或云服务器
  3. 云服务器成本:按需GPU实例约¥2-5/小时

如果你是内容创作者,需要大量配音但不想付订阅费,VoxCPM2值得投入时间部署。一次性部署成本换来无限使用的语音合成能力。

对于商业项目,Apache-2.0许可证意味着你可以自由商用,没有 royalties 或额外费用。

🎯 官方链接:VoxCPM GitHub →

在线体验:HuggingFace Demo →