<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>TTS on 赛博工具站</title>
    <link>https://haodaohang.top/tags/tts/</link>
    <description>Recent content in TTS on 赛博工具站</description>
    <image>
      <title>赛博工具站</title>
      <url>https://haodaohang.top/images/cover.png</url>
      <link>https://haodaohang.top/images/cover.png</link>
    </image>
    <generator>Hugo -- 0.152.2</generator>
    <language>zh-cn</language>
    <lastBuildDate>Thu, 02 Apr 2026 10:00:00 +0800</lastBuildDate>
    <atom:link href="https://haodaohang.top/tags/tts/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>VibeVoice评测：微软开源语音AI三剑客详解</title>
      <link>https://haodaohang.top/posts/2026-04-02-vibevoice-review/</link>
      <pubDate>Thu, 02 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-04-02-vibevoice-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;VibeVoice是微软开源的前沿语音AI框架，刚上GitHub Trending就炸了——一天涨了1600多星。这东西厉害在哪？它把语音识别和语音合成这两个硬骨头啃得挺漂亮：ASR能一口气处理60分钟长音频，TTS能生成90分钟的连续语音。对于做播客转写、有声书生成、多人对话场景的玩家来说，这套组合拳值得研究。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;VibeVoice-ASR（语音识别）&lt;/strong&gt;：单次处理最长60分钟音频，自动识别谁在什么时候说了什么，支持50+种语言，还能加载自定义热词提高专业领域准确率。已集成到Hugging Face Transformers库，import就能跑。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;VibeVoice-TTS（语音合成）&lt;/strong&gt;：最长生成90分钟连续语音，支持4个不同说话者同时登场，中英文都行。论文被ICLR 2026录用了，技术层面是认真的。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;VibeVoice-Realtime（实时TTS）&lt;/strong&gt;：0.5B参数的轻量模型，首字延迟约300毫秒，支持流式输入。适合对话机器人、实时播报这类对延迟敏感的场景。&lt;/p&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源版&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;模型全开，需自部署GPU&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Playground&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;在线体验，有调用限制&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;云服务&lt;/td&gt;
          &lt;td&gt;按量计费&lt;/td&gt;
          &lt;td&gt;微软Azure（待官方支持）&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 官方Playground和Colab笔记本都可以免费试用，建议先玩玩再决定要不要自己部署
&lt;a href=&#34;https://aka.ms/vibevoice-asr&#34;&gt;CPS链接：VibeVoice Playground →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全开源，模型权重可下载&lt;/td&gt;
          &lt;td&gt;部署需要GPU资源（ASR 7B显存要求较高）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;长音频处理能力业内领先&lt;/td&gt;
          &lt;td&gt;官方云服务还没上线&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;多语言支持，中文效果不错&lt;/td&gt;
          &lt;td&gt;社区生态还在建设中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;微软背书，持续迭代有保障&lt;/td&gt;
          &lt;td&gt;TTS代码因合规原因已下架&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;推荐给：播客、访谈类内容的创作者（ASR转写确实好用）；有声书、多角色配音需求的人；做语音AI研究的学生和开发者；需要本地部署语音能力的企业。&lt;/p&gt;
&lt;p&gt;不推荐：没有GPU资源又不想花钱租云主机的；只需要简单短语音转写的轻度用户（用免费的Whisper更省事）。&lt;/p&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;asr快速上手hugging-face方式&#34;&gt;ASR快速上手（Hugging Face方式）&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; transformers &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; AutoModel, AutoProcessor
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; torch
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 加载模型&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;model &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoModel&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;microsoft/VibeVoice-ASR&amp;#34;&lt;/span&gt;, trust_remote_code&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;True&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;processor &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoProcessor&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;microsoft/VibeVoice-ASR&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 处理音频&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;inputs &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; processor(audio_path, return_tensors&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;pt&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;outputs &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(&lt;span style=&#34;color:#f92672&#34;&gt;**&lt;/span&gt;inputs)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;result &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; processor&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;decode(outputs[&lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;])
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(result)  &lt;span style=&#34;color:#75715e&#34;&gt;# 输出：谁-何时-说什么的结构化结果&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;realtime-tts在线体验&#34;&gt;Realtime TTS在线体验&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;打开官方Colab笔记本&lt;/li&gt;
&lt;li&gt;运行安装单元格&lt;/li&gt;
&lt;li&gt;输入你想转成语音的文字&lt;/li&gt;
&lt;li&gt;选择说话者风格（现支持9种语言+11种英文风格）&lt;/li&gt;
&lt;li&gt;点击生成，下载音频&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&#34;自定义热词提升识别率&#34;&gt;自定义热词提升识别率&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 比如你的音频里有大量专业术语&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;hotwords &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; [&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;RAG&amp;#34;&lt;/span&gt;, &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;LangChain&amp;#34;&lt;/span&gt;, &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;Vector Database&amp;#34;&lt;/span&gt;, &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;Embedding&amp;#34;&lt;/span&gt;]
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;result &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;transcribe(audio_path, hotwords&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hotwords)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;做语音相关产品的，这套工具值得花时间研究。ASR的长音频能力确实能解决很多痛点——以前得把音频切成小块再拼，现在直接扔进去就行。Realtime模型的300毫秒延迟也很适合实时场景。&lt;/p&gt;</description>
    </item>
    <item>
      <title>VibeVoice评测：微软开源语音AI方案详解</title>
      <link>https://haodaohang.top/posts/2026-03-31-vibevoice-review/</link>
      <pubDate>Tue, 31 Mar 2026 10:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-03-31-vibevoice-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;微软开源了一套语音AI模型，叫VibeVoice。今天GitHub上一天涨了2400多星，热度挺高的。核心卖点是：能一口气处理60分钟的音频，还能识别是谁说的、什么时候说的。&lt;/p&gt;
&lt;p&gt;简单说，就是给播客、会议录音做转写的。跟那些把音频切成小段再拼起来的方案不一样，它直接吞整段，说话人不会乱。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;VibeVoice-ASR（语音转文字）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;单次处理60分钟音频，不用切分&lt;/li&gt;
&lt;li&gt;自动识别说话人、打时间戳&lt;/li&gt;
&lt;li&gt;支持50多种语言，中文、英文、日文、韩文都行&lt;/li&gt;
&lt;li&gt;能喂&amp;quot;热词&amp;quot;提高识别准确率，比如专业术语、人名&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;VibeVoice-TTS（文字转语音）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;最多生成90分钟的语音&lt;/li&gt;
&lt;li&gt;支持4个说话人，能模拟对话&lt;/li&gt;
&lt;li&gt;已经被微软下架了——因为有人拿它做坏事&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;VibeVoice-Realtime（实时TTS）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;0.5B参数，轻量级&lt;/li&gt;
&lt;li&gt;300毫秒出声，适合做实时语音助手&lt;/li&gt;
&lt;li&gt;流式输入，边打字边播&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源版&lt;/td&gt;
          &lt;td&gt;免费&lt;/td&gt;
          &lt;td&gt;需自己部署，要有GPU&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;HuggingFace在线试玩&lt;/td&gt;
          &lt;td&gt;免费&lt;/td&gt;
          &lt;td&gt;有额度限制&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;微软Playground&lt;/td&gt;
          &lt;td&gt;免费&lt;/td&gt;
          &lt;td&gt;需登录微软账号&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;这个是纯开源项目，没有商业授权。模型权重在HuggingFace上，代码在GitHub上。想用就得自己搭服务器，显卡建议A100或者4090起步。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;微软出品，技术靠谱&lt;/td&gt;
          &lt;td&gt;需要GPU，门槛不低&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;长音频单次处理，不用切片&lt;/td&gt;
          &lt;td&gt;TTS代码已被移除&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;50+语言，中文支持&lt;/td&gt;
          &lt;td&gt;仅限研究用途，不能商用&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;已集成到Transformers库&lt;/td&gt;
          &lt;td&gt;文档不算太详细&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持热词定制&lt;/td&gt;
          &lt;td&gt;部署需要一定工程能力&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;推荐给：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;做播客、会议转写的开发者&lt;/li&gt;
&lt;li&gt;需要长音频处理的语音项目&lt;/li&gt;
&lt;li&gt;有GPU资源的研究团队&lt;/li&gt;
&lt;li&gt;想自己搭语音识别服务的&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不推荐：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;没有技术背景的普通用户&lt;/li&gt;
&lt;li&gt;想直接商用赚钱的&lt;/li&gt;
&lt;li&gt;没有显卡资源的学生党&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;方式一huggingface在线体验&#34;&gt;方式一：HuggingFace在线体验&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;访问 &lt;a href=&#34;https://huggingface.co/microsoft/VibeVoice-ASR&#34;&gt;https://huggingface.co/microsoft/VibeVoice-ASR&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;点击&amp;quot;Files and versions&amp;quot;，找到demo入口&lt;/li&gt;
&lt;li&gt;上传音频文件测试&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&#34;方式二本地部署&#34;&gt;方式二：本地部署&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 安装依赖&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install transformers torch
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# Python代码&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;from transformers import AutoModel
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;model &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoModel.from_pretrained&lt;span style=&#34;color:#f92672&#34;&gt;(&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;microsoft/VibeVoice-ASR&amp;#34;&lt;/span&gt;, trust_remote_code&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;True&lt;span style=&#34;color:#f92672&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 推理&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;result &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model.transcribe&lt;span style=&#34;color:#f92672&#34;&gt;(&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;your_audio.mp3&amp;#34;&lt;/span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;方式三playground体验&#34;&gt;方式三：Playground体验&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;访问 &lt;a href=&#34;https://aka.ms/vibevoice-asr&#34;&gt;https://aka.ms/vibevoice-asr&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;用微软账号登录&lt;/li&gt;
&lt;li&gt;上传音频体验完整功能&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;这个项目不适合&amp;quot;买&amp;quot;，因为没有付费版。适合不适合你，看这三点：&lt;/p&gt;</description>
    </item>
    <item>
      <title>fish-speech：开源 TTS 如何突破 SOTA？技术原理与应用实践</title>
      <link>https://haodaohang.top/posts/2026-03-15-fish-speech-tts/</link>
      <pubDate>Sun, 15 Mar 2026 16:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-03-15-fish-speech-tts/</guid>
      <description>fish-speech 作为 GitHub 上最受关注的开源语音合成项目，号称达到 SOTA 水平。本文深入解析其技术架构、音色克隆能力、多语言支持，以及在 AI Agent 场景中的集成实践。</description>
    </item>
  </channel>
</rss>
