<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>语音合成 on 赛博工具站</title>
    <link>https://haodaohang.top/tags/%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90/</link>
    <description>Recent content in 语音合成 on 赛博工具站</description>
    <image>
      <title>赛博工具站</title>
      <url>https://haodaohang.top/images/cover.png</url>
      <link>https://haodaohang.top/images/cover.png</link>
    </image>
    <generator>Hugo -- 0.152.2</generator>
    <language>zh-cn</language>
    <lastBuildDate>Mon, 30 Mar 2026 10:00:00 +0800</lastBuildDate>
    <atom:link href="https://haodaohang.top/tags/%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>VibeVoice评测：微软开源语音AI全家桶方案详解</title>
      <link>https://haodaohang.top/posts/2026-03-30-vibevoice-review/</link>
      <pubDate>Mon, 30 Mar 2026 10:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-03-30-vibevoice-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;VibeVoice是微软开源的前沿语音AI框架，主打&amp;quot;长音频处理&amp;quot;——语音识别能一次吃下60分钟录音，语音合成能一口气生成90分钟的对话。这不是普通的TTS/ASR工具，而是专为播客、会议、多角色对话场景设计的硬核方案。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;VibeVoice-ASR（语音识别）&lt;/strong&gt;：单次处理60分钟长音频，自动输出说话人识别、时间戳、文字内容三合一的结构化转录，支持50+语种&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VibeVoice-TTS（语音合成）&lt;/strong&gt;：最长90分钟连续生成，支持4个不同说话人同台对话，保留情感和对话节奏&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VibeVoice-Realtime（实时语音）&lt;/strong&gt;：0.5B轻量模型，300毫秒首字延迟，流式输入实时输出，适合对话机器人场景&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自定义热词&lt;/strong&gt;：可输入专业术语、人名等上下文，显著提升领域内容识别准确率&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多语言支持&lt;/strong&gt;：英语、中文及其他语言，跨语言合成自然流畅&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源版（GitHub）&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;完整模型权重，需自行部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;HuggingFace在线体验&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;Playground免费试用，有排队&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Azure云服务&lt;/td&gt;
          &lt;td&gt;按量计费&lt;/td&gt;
          &lt;td&gt;企业级API，SLA保障&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 点击下方链接可享受专属优惠
&lt;a href=&#34;https://github.com/microsoft/VibeVoice&#34;&gt;CPS链接：VibeVoice官网 →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;微软出品，开源免费，可商用&lt;/td&gt;
          &lt;td&gt;自行部署门槛高，需要GPU&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;60分钟长音频一次搞定&lt;/td&gt;
          &lt;td&gt;TTS代码已被移除，仅保留ASR和Realtime&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持多说话人识别与合成&lt;/td&gt;
          &lt;td&gt;中文文档较少，主要靠英文README&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;已集成到HuggingFace Transformers&lt;/td&gt;
          &lt;td&gt;模型体积大（ASR 7B参数）&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;推荐给：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;播客制作团队（长音频转录+后期合成）&lt;/li&gt;
&lt;li&gt;会议记录需求方（自动区分发言人）&lt;/li&gt;
&lt;li&gt;AI语音应用开发者（需要开源底座）&lt;/li&gt;
&lt;li&gt;内容创作者（多角色配音需求）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不推荐：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;没有技术背景的普通用户（部署复杂）&lt;/li&gt;
&lt;li&gt;短视频配音需求（有更轻量的选择）&lt;/li&gt;
&lt;li&gt;对延迟极度敏感的实时对话场景（Realtime版延迟仍约300ms）&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;asr语音识别快速上手&#34;&gt;ASR语音识别快速上手&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 安装依赖&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install transformers torch
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 加载模型&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; transformers &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; AutoModel, AutoProcessor
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;model &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoModel&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;microsoft/VibeVoice-ASR&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;processor &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoProcessor&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;microsoft/VibeVoice-ASR&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 处理音频&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;result &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model(processor(audio_path))
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 输出包含：说话人、时间戳、文字&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;realtime实时语音合成&#34;&gt;Realtime实时语音合成&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# Colab一键体验&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 访问：https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;在线体验地址&#34;&gt;在线体验地址&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;ASR Playground: &lt;a href=&#34;https://aka.ms/vibevoice-asr&#34;&gt;https://aka.ms/vibevoice-asr&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Realtime Colab: 官方Demo笔记本&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;如果你是&lt;strong&gt;个人开发者或小团队&lt;/strong&gt;，直接用GitHub开源版本+HuggingFace在线体验即可，完全免费。&lt;/p&gt;</description>
    </item>
    <item>
      <title>fish-speech：开源 TTS 如何突破 SOTA？技术原理与应用实践</title>
      <link>https://haodaohang.top/posts/2026-03-15-fish-speech-tts/</link>
      <pubDate>Sun, 15 Mar 2026 16:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-03-15-fish-speech-tts/</guid>
      <description>fish-speech 作为 GitHub 上最受关注的开源语音合成项目，号称达到 SOTA 水平。本文深入解析其技术架构、音色克隆能力、多语言支持，以及在 AI Agent 场景中的集成实践。</description>
    </item>
  </channel>
</rss>
