<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>VoxCPM2 on 赛博工具站</title>
    <link>https://haodaohang.top/tags/voxcpm2/</link>
    <description>Recent content in VoxCPM2 on 赛博工具站</description>
    <image>
      <title>赛博工具站</title>
      <url>https://haodaohang.top/images/cover.png</url>
      <link>https://haodaohang.top/images/cover.png</link>
    </image>
    <generator>Hugo -- 0.152.2</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sun, 12 Apr 2026 10:00:00 +0800</lastBuildDate>
    <atom:link href="https://haodaohang.top/tags/voxcpm2/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>VoxCPM2评测：开源多语言AI语音合成方案详解</title>
      <link>https://haodaohang.top/posts/2026-04-12-voxcpm-review/</link>
      <pubDate>Sun, 12 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-04-12-voxcpm-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;VoxCPM2是OpenBMB团队开源的AI语音合成工具，支持30种语言、48kHz高保真输出，能做声音克隆和语音设计。2B参数量，Apache-2.0许可证，可商用。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;30语言支持&lt;/strong&gt;：中英日韩、欧洲主流语言、东南亚语言等，输入文本自动识别语言，不需要手动标注&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Voice Design声音设计&lt;/strong&gt;：用自然语言描述就能生成声音，比如&amp;quot;(年轻女性，温柔甜美)大家好&amp;quot;，不需要参考音频&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可控声音克隆&lt;/strong&gt;：上传一段参考音频就能克隆音色，还能用指令控制语速、情绪、风格&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;终极克隆模式&lt;/strong&gt;：提供参考音频+对应文本，模型能完整复制音色、节奏、情绪等所有细节&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;48kHz高保真输出&lt;/strong&gt;：输出录音棚级别的音频质量，不需要额外升采样&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实时流式生成&lt;/strong&gt;：RTF低至0.13（RTX 4090），支持流式输出&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源版&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;完整功能，Apache-2.0商用许可&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Nano-VLLM加速版&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;需要额外安装加速引擎&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 完全免费开源，权重和代码都在Apache-2.0下发布，可自由商用
&lt;a href=&#34;https://github.com/OpenBMB/VoxCPM&#34;&gt;GitHub开源地址 →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全开源免费，可商用&lt;/td&gt;
          &lt;td&gt;需要8GB显存起步&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持30种语言，覆盖面广&lt;/td&gt;
          &lt;td&gt;英文效果最佳，小语种有波动&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;声音克隆效果出色&lt;/td&gt;
          &lt;td&gt;部署有一定技术门槛&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48kHz高保真输出&lt;/td&gt;
          &lt;td&gt;首次加载模型较慢&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持实时流式生成&lt;/td&gt;
          &lt;td&gt;中文方言支持有限&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;推荐给：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;视频创作者（配音、旁白）&lt;/li&gt;
&lt;li&gt;播客/有声书制作者&lt;/li&gt;
&lt;li&gt;多语言内容创作者&lt;/li&gt;
&lt;li&gt;有本地部署需求的开发者&lt;/li&gt;
&lt;li&gt;想用AI语音又不想付订阅费的团队&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不推荐：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;没有GPU设备的用户&lt;/li&gt;
&lt;li&gt;不想折腾部署的小白用户&lt;/li&gt;
&lt;li&gt;只需要简单TTS功能的轻度用户&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;安装&#34;&gt;安装&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install voxcpm
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;要求：Python ≥ 3.10，PyTorch ≥ 2.5.0，CUDA ≥ 12.0&lt;/p&gt;
&lt;h3 id=&#34;基础使用&#34;&gt;基础使用&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; voxcpm &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; VoxCPM
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; soundfile &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; sf
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;model &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; VoxCPM&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;openbmb/VoxCPM2&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;wav &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    text&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;VoxCPM2支持中英文混合输入。&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    cfg_value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;2.0&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    inference_timesteps&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;10&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;sf&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;write(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;output.wav&amp;#34;&lt;/span&gt;, wav, model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;tts_model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sample_rate)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;声音设计&#34;&gt;声音设计&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;wav &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    text&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;(年轻女性，温柔甜美的声音)欢迎使用VoxCPM2！&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    cfg_value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;2.0&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;声音克隆&#34;&gt;声音克隆&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;wav &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    text&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;这是克隆后的声音。&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    reference_wav_path&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;reference.wav&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;生产环境部署&#34;&gt;生产环境部署&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install nano-vllm-voxcpm
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;使用Nano-VLLM加速引擎，RTF可降至0.13，支持并发请求。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
