<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>开源工具 on 赛博工具站</title>
    <link>https://haodaohang.top/tags/%E5%BC%80%E6%BA%90%E5%B7%A5%E5%85%B7/</link>
    <description>Recent content in 开源工具 on 赛博工具站</description>
    <image>
      <title>赛博工具站</title>
      <url>https://haodaohang.top/images/cover.png</url>
      <link>https://haodaohang.top/images/cover.png</link>
    </image>
    <generator>Hugo -- 0.152.2</generator>
    <language>zh-cn</language>
    <lastBuildDate>Fri, 10 Apr 2026 10:00:00 +0800</lastBuildDate>
    <atom:link href="https://haodaohang.top/tags/%E5%BC%80%E6%BA%90%E5%B7%A5%E5%85%B7/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Hermes Agent评测：一个会自我进化的AI代理方案</title>
      <link>https://haodaohang.top/posts/2026-04-10-hermes-agent-review/</link>
      <pubDate>Fri, 10 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-04-10-hermes-agent-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;Hermes Agent是Nous Research推出的开源AI代理，目前GitHub上有将近4.5万星。它最特别的地方不是能帮你干活，而是会自己学习——用着用着，它会创建新技能、改进旧技能、记住你的偏好，越用越顺手。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;学习循环&lt;/strong&gt;：这是它跟其他代理最大的区别。完成复杂任务后，它会自动创建&amp;quot;技能&amp;quot;（skills）。下次遇到类似问题，直接调用。技能还会在反复使用中自我改进。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;多平台接入&lt;/strong&gt;：Telegram、Discord、Slack、WhatsApp、Signal都能连。你在手机上发消息，它在云端跑。支持语音转文字，跨平台对话也连贯。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;多模型切换&lt;/strong&gt;：不绑死某个模型。Nous Portal、OpenRouter（200多个模型）、GLM、Kimi、MiniMax、OpenAI，甚至自己的私有端点都能用。一条命令&lt;code&gt;hermes model&lt;/code&gt;就切换，不用改代码。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;记忆系统&lt;/strong&gt;：会定期提醒自己记住重要的事。能搜索过去的对话历史，用LLM总结找相关内容。还支持Honcho方言式用户建模——简单说，它会越来越懂你。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;定时任务&lt;/strong&gt;：内置cron调度器。日报、周报、自动备份，用自然语言描述就行，不用写crontab。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;子代理并行&lt;/strong&gt;：遇到大任务能派发子代理分头干活。Python脚本也能调用工具，把多步流程压缩成一轮对话。&lt;/p&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源自用&lt;/td&gt;
          &lt;td&gt;免费&lt;/td&gt;
          &lt;td&gt;自己部署，服务器费用自理&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Nous Portal&lt;/td&gt;
          &lt;td&gt;按量付费&lt;/td&gt;
          &lt;td&gt;官方托管，价格随模型不同&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;其他模型&lt;/td&gt;
          &lt;td&gt;各平台定价&lt;/td&gt;
          &lt;td&gt;OpenRouter、Kimi等按各家收费标准&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 点击下方链接可查看官方文档
&lt;a href=&#34;%E9%93%BE%E6%8E%A5&#34;&gt;CPS链接：Hermes Agent官网 →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源免费，代码透明&lt;/td&gt;
          &lt;td&gt;自己部署需要技术能力&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;会自我学习改进&lt;/td&gt;
          &lt;td&gt;学习效果取决于使用频率&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持十几种模型切换&lt;/td&gt;
          &lt;td&gt;部分高级功能文档不全&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;多平台消息互通&lt;/td&gt;
          &lt;td&gt;语音功能在Termux上受限&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;内存占用低，5美元VPS能跑&lt;/td&gt;
          &lt;td&gt;Windows原生不支持，得用WSL&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;推荐给：开发者、技术爱好者、想长期用一个AI代理的人、需要自动化日常任务的人&lt;/p&gt;
&lt;p&gt;不推荐：完全不懂命令行的用户、只想快速上手不想折腾的人&lt;/p&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;安装：&lt;code&gt;curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;重载终端：&lt;code&gt;source ~/.bashrc&lt;/code&gt;（zsh用户用&lt;code&gt;source ~/.zshrc&lt;/code&gt;）&lt;/li&gt;
&lt;li&gt;启动：输入&lt;code&gt;hermes&lt;/code&gt;进入对话&lt;/li&gt;
&lt;li&gt;选模型：&lt;code&gt;hermes model&lt;/code&gt;选择你要用的LLM&lt;/li&gt;
&lt;li&gt;（可选）启动网关：&lt;code&gt;hermes gateway&lt;/code&gt;接入Telegram等平台&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Windows用户需要先装WSL2。Android用户可以用Termux，但语音相关依赖装不了完整版。&lt;/p&gt;
&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;如果你是开发者或者喜欢折腾，这个项目值得花时间研究。它的学习循环机制确实新颖——不是简单地记住历史，而是主动创造工具来提升效率。开源免费也是加分项。&lt;/p&gt;
&lt;p&gt;但如果你只想找个开箱即用的AI助手，可能Claude、ChatGPT的官方应用更省事。Hermes Agent的乐趣在于参与塑造它，而不是把它当黑盒用。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;🎯 官方链接：&lt;a href=&#34;%E9%93%BE%E6%8E%A5&#34;&gt;Hermes Agent官网 →&lt;/a&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>OpenScreen评测：免费录制专业产品演示视频的最佳方案</title>
      <link>https://haodaohang.top/posts/2026-04-06-openscreen-review/</link>
      <pubDate>Mon, 06 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-04-06-openscreen-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;还在为Screen Studio每月29美元的订阅费肉疼吗？OpenScreen来了！这款开源免费的屏幕录制工具，让你轻松制作专业级产品演示视频——零成本、无水印、商用也没问题。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;智能缩放&lt;/strong&gt;：自动或手动添加缩放效果，可调整深度、时长和位置，让演示更专业&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;灵活录制&lt;/strong&gt;：支持录制特定窗口或全屏，同时捕获麦克风和系统音频&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;背景美化&lt;/strong&gt;：提供壁纸、纯色、渐变或自定义背景，告别单调录制&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;运动模糊&lt;/strong&gt;：平滑的平移和缩放效果，视频观感更流畅&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;注释标注&lt;/strong&gt;：添加文字、箭头、图片等注释，讲解更清晰&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;剪辑控制&lt;/strong&gt;：裁剪视频片段、调整各段落速度，精细化输出&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多格式导出&lt;/strong&gt;：支持不同宽高比和分辨率，适配各平台需求&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全免费&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;全部功能，无任何限制&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 &lt;strong&gt;良心开源&lt;/strong&gt;：MIT许可证，个人和商业用途均可，无订阅费、无水印、无套路&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;https://github.com/siddharthvaddem/openscreen&#34;&gt;开源地址：GitHub →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全免费，开源可商用&lt;/td&gt;
          &lt;td&gt;仍在beta阶段，可能偶有bug&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;功能覆盖Screen Studio核心需求&lt;/td&gt;
          &lt;td&gt;高级特效不如付费工具丰富&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持macOS/Windows/Linux三平台&lt;/td&gt;
          &lt;td&gt;系统音频捕获在部分系统有限制&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;自动缩放+运动模糊效果专业&lt;/td&gt;
          &lt;td&gt;需手动配置权限（macOS）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;无水印，导出质量高&lt;/td&gt;
          &lt;td&gt;社区生态较新，教程较少&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;推荐给：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;独立开发者展示产品功能&lt;/li&gt;
&lt;li&gt;内容创作者制作教程视频&lt;/li&gt;
&lt;li&gt;产品经理录制功能演示&lt;/li&gt;
&lt;li&gt;SaaS团队制作客户引导视频&lt;/li&gt;
&lt;li&gt;预算有限的创业者/小团队&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不推荐：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;需要企业级支持SLA的大型团队&lt;/li&gt;
&lt;li&gt;追求顶级特效的专业视频团队（建议用Screen Studio）&lt;/li&gt;
&lt;li&gt;只用一次的轻度用户（在线工具更方便）&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;1-下载安装&#34;&gt;1. 下载安装&lt;/h3&gt;
&lt;p&gt;访问 &lt;a href=&#34;https://github.com/siddharthvaddem/openscreen/releases&#34;&gt;GitHub Releases&lt;/a&gt; 下载对应平台安装包：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;macOS&lt;/strong&gt;：下载.dmg文件，拖入Applications&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Windows&lt;/strong&gt;：下载.exe安装程序&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Linux&lt;/strong&gt;：下载.AppImage文件&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-配置权限macos必做&#34;&gt;2. 配置权限（macOS必做）&lt;/h3&gt;
&lt;p&gt;如果macOS阻止打开，运行以下命令：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;xattr -rd com.apple.quarantine /Applications/Openscreen.app
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;然后在「系统设置 &amp;gt; 隐私与安全性」授予屏幕录制和辅助功能权限。&lt;/p&gt;
&lt;h3 id=&#34;3-开始录制&#34;&gt;3. 开始录制&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;选择录制区域（窗口或全屏）&lt;/li&gt;
&lt;li&gt;选择背景样式&lt;/li&gt;
&lt;li&gt;点击录制按钮开始&lt;/li&gt;
&lt;li&gt;录制时可添加缩放标注&lt;/li&gt;
&lt;li&gt;录制完成后在编辑器中修剪、调速&lt;/li&gt;
&lt;li&gt;导出为所需格式&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;OpenScreen最大的&amp;quot;缺点&amp;quot;就是它不需要购买——完全免费开源！&lt;/p&gt;</description>
    </item>
    <item>
      <title>OpenScreen评测：免费做产品演示视频的好工具</title>
      <link>https://haodaohang.top/posts/2026-04-05-openscreen-review/</link>
      <pubDate>Sun, 05 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-04-05-openscreen-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;做产品演示视频，以前要么用OBS自己折腾，要么花钱买Screen Studio（一个月29美元）。OpenScreen是另一个选择——完全免费、开源、没水印，商用也没问题。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;屏幕录制&lt;/strong&gt;：全屏或指定窗口，同时录麦克风和系统声音&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自动缩放&lt;/strong&gt;：录制时自动放大鼠标区域，也可以手动调整&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;背景美化&lt;/strong&gt;：自带壁纸、纯色、渐变，或者自定义背景&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;标注功能&lt;/strong&gt;：加文字、箭头、图片标注&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;视频剪辑&lt;/strong&gt;：裁剪、调整速度、分段变速&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多格式导出&lt;/strong&gt;：不同分辨率和画幅比例&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;OpenScreen&lt;/td&gt;
          &lt;td&gt;免费&lt;/td&gt;
          &lt;td&gt;全功能，无限制&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Screen Studio对比&lt;/td&gt;
          &lt;td&gt;$29/月&lt;/td&gt;
          &lt;td&gt;功能更全面&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;OpenScreen是开源项目，GitHub上直接下载安装包，不需要注册账号，也没有订阅收费。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全免费，MIT开源协议&lt;/td&gt;
          &lt;td&gt;功能比Screen Studio少&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;无水印，可商用&lt;/td&gt;
          &lt;td&gt;macOS需要绕过Gatekeeper&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;自动缩放效果好&lt;/td&gt;
          &lt;td&gt;Linux下系统音频依赖PipeWire&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持Windows/macOS/Linux&lt;/td&gt;
          &lt;td&gt;项目还在Beta阶段&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;推荐给：需要做产品演示视频的开发者、小团队、内容创作者&lt;/p&gt;
&lt;p&gt;不推荐：需要专业后期剪辑功能的用户，建议直接用Final Cut或Premiere&lt;/p&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;macOS安装&lt;/strong&gt;&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 绕过Gatekeeper（因为没开发者证书）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;xattr -rd com.apple.quarantine /Applications/Openscreen.app
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;然后去系统偏好设置里授权屏幕录制和辅助功能权限。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Windows安装&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;直接下载exe安装包，一路下一步。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Linux安装&lt;/strong&gt;&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;chmod +x Openscreen-Linux-*.AppImage
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;./Openscreen-Linux-*.AppImage
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;如果报sandbox错误，加个参数：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;./Openscreen-Linux-*.AppImage --no-sandbox
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h2 id=&#34;使用建议&#34;&gt;使用建议&lt;/h2&gt;
&lt;p&gt;录之前想好要展示什么，一次录完效果最好。自动缩放功能省了很多后期工作量，但手动调整更精准。背景选浅色系，视频看起来更干净。&lt;/p&gt;
&lt;p&gt;如果你只是偶尔做几个演示视频，OpenScreen够用了。天天做的话，Screen Studio确实更顺手——但那也是真金白银换来的。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;官方链接：&lt;a href=&#34;https://github.com/siddharthvaddem/openscreen&#34;&gt;OpenScreen GitHub →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;</description>
    </item>
    <item>
      <title>VibeVoice评测：微软开源语音AI三剑客详解</title>
      <link>https://haodaohang.top/posts/2026-04-02-vibevoice-review/</link>
      <pubDate>Thu, 02 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-04-02-vibevoice-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;VibeVoice是微软开源的前沿语音AI框架，刚上GitHub Trending就炸了——一天涨了1600多星。这东西厉害在哪？它把语音识别和语音合成这两个硬骨头啃得挺漂亮：ASR能一口气处理60分钟长音频，TTS能生成90分钟的连续语音。对于做播客转写、有声书生成、多人对话场景的玩家来说，这套组合拳值得研究。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;VibeVoice-ASR（语音识别）&lt;/strong&gt;：单次处理最长60分钟音频，自动识别谁在什么时候说了什么，支持50+种语言，还能加载自定义热词提高专业领域准确率。已集成到Hugging Face Transformers库，import就能跑。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;VibeVoice-TTS（语音合成）&lt;/strong&gt;：最长生成90分钟连续语音，支持4个不同说话者同时登场，中英文都行。论文被ICLR 2026录用了，技术层面是认真的。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;VibeVoice-Realtime（实时TTS）&lt;/strong&gt;：0.5B参数的轻量模型，首字延迟约300毫秒，支持流式输入。适合对话机器人、实时播报这类对延迟敏感的场景。&lt;/p&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源版&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;模型全开，需自部署GPU&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Playground&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;在线体验，有调用限制&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;云服务&lt;/td&gt;
          &lt;td&gt;按量计费&lt;/td&gt;
          &lt;td&gt;微软Azure（待官方支持）&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 官方Playground和Colab笔记本都可以免费试用，建议先玩玩再决定要不要自己部署
&lt;a href=&#34;https://aka.ms/vibevoice-asr&#34;&gt;CPS链接：VibeVoice Playground →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全开源，模型权重可下载&lt;/td&gt;
          &lt;td&gt;部署需要GPU资源（ASR 7B显存要求较高）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;长音频处理能力业内领先&lt;/td&gt;
          &lt;td&gt;官方云服务还没上线&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;多语言支持，中文效果不错&lt;/td&gt;
          &lt;td&gt;社区生态还在建设中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;微软背书，持续迭代有保障&lt;/td&gt;
          &lt;td&gt;TTS代码因合规原因已下架&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;推荐给：播客、访谈类内容的创作者（ASR转写确实好用）；有声书、多角色配音需求的人；做语音AI研究的学生和开发者；需要本地部署语音能力的企业。&lt;/p&gt;
&lt;p&gt;不推荐：没有GPU资源又不想花钱租云主机的；只需要简单短语音转写的轻度用户（用免费的Whisper更省事）。&lt;/p&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;asr快速上手hugging-face方式&#34;&gt;ASR快速上手（Hugging Face方式）&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; transformers &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; AutoModel, AutoProcessor
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; torch
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 加载模型&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;model &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoModel&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;microsoft/VibeVoice-ASR&amp;#34;&lt;/span&gt;, trust_remote_code&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;True&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;processor &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoProcessor&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;microsoft/VibeVoice-ASR&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 处理音频&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;inputs &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; processor(audio_path, return_tensors&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;pt&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;outputs &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(&lt;span style=&#34;color:#f92672&#34;&gt;**&lt;/span&gt;inputs)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;result &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; processor&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;decode(outputs[&lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;])
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(result)  &lt;span style=&#34;color:#75715e&#34;&gt;# 输出：谁-何时-说什么的结构化结果&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;realtime-tts在线体验&#34;&gt;Realtime TTS在线体验&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;打开官方Colab笔记本&lt;/li&gt;
&lt;li&gt;运行安装单元格&lt;/li&gt;
&lt;li&gt;输入你想转成语音的文字&lt;/li&gt;
&lt;li&gt;选择说话者风格（现支持9种语言+11种英文风格）&lt;/li&gt;
&lt;li&gt;点击生成，下载音频&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&#34;自定义热词提升识别率&#34;&gt;自定义热词提升识别率&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 比如你的音频里有大量专业术语&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;hotwords &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; [&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;RAG&amp;#34;&lt;/span&gt;, &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;LangChain&amp;#34;&lt;/span&gt;, &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;Vector Database&amp;#34;&lt;/span&gt;, &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;Embedding&amp;#34;&lt;/span&gt;]
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;result &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;transcribe(audio_path, hotwords&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hotwords)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;做语音相关产品的，这套工具值得花时间研究。ASR的长音频能力确实能解决很多痛点——以前得把音频切成小块再拼，现在直接扔进去就行。Realtime模型的300毫秒延迟也很适合实时场景。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Onyx评测：开源AI平台让企业知识秒变智能助手</title>
      <link>https://haodaohang.top/posts/2026-03-29-onyx-ai-platform-review/</link>
      <pubDate>Sun, 29 Mar 2026 10:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-03-29-onyx-ai-platform-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;Onyx是个开源的AI聊天平台，支持OpenAI、Claude、Gemini这些主流LLM。核心功能就是把企业内部知识喂给AI——上传文档、连上Slack和Confluence，然后AI就能基于这些内容回答问题。简单说就是私有版的ChatGPT，但它真的读过你公司的资料。&lt;/p&gt;
&lt;p&gt;GitHub上热度不错，号称1000+团队在用。我测了一圈，感觉确实不是PPT产品。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;RAG检索：混合搜索加知识图谱，文档或连接器里的内容都能挖出来&lt;/li&gt;
&lt;li&gt;自定义Agent：给AI设定角色和知识范围，造个专属客服或研究员&lt;/li&gt;
&lt;li&gt;深度研究模式：多步搜索，适合要翻很多资料的问题&lt;/li&gt;
&lt;li&gt;代码解释器：跑Python代码，做数据分析画图&lt;/li&gt;
&lt;li&gt;网页搜索：接了Google PSE、Exa、Serper，能实时搜网&lt;/li&gt;
&lt;li&gt;40+连接器：Slack、Notion、Google Drive、Confluence这些主流工具都能连&lt;/li&gt;
&lt;li&gt;MCP协议：AI不只是聊天，还能调API干活&lt;/li&gt;
&lt;li&gt;企业安全：SSO、权限控制、文档权限继承、凭据加密&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;社区版 (CE)&lt;/td&gt;
          &lt;td&gt;免费&lt;/td&gt;
          &lt;td&gt;MIT开源，自己部署，核心功能全有&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;商业版&lt;/td&gt;
          &lt;td&gt;联系销售&lt;/td&gt;
          &lt;td&gt;团队用，全部功能&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;企业版 (EE)&lt;/td&gt;
          &lt;td&gt;联系销售&lt;/td&gt;
          &lt;td&gt;私有部署、SSO、白标、企业SLA&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;社区版免费开源，自托管不花钱。商业版和企业版需要找他们销售聊，官网没公开价格。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 个人或小团队先试云端版，确认好用再考虑自托管
&lt;a href=&#34;%E9%93%BE%E6%8E%A5&#34;&gt;CPS链接：Onyx官网 →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源免费，数据在自己手里&lt;/td&gt;
          &lt;td&gt;自托管要懂点运维&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;连接器多，主流工具都能接&lt;/td&gt;
          &lt;td&gt;企业版价格要谈，不够透明&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;RAG效果确实比ChatGPT强&lt;/td&gt;
          &lt;td&gt;文档还在完善中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持所有主流LLM&lt;/td&gt;
          &lt;td&gt;功能多，上手有门槛&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;过了SOC 2 Type II和GDPR&lt;/td&gt;
          &lt;td&gt;云端版海外部署，国内访问可能慢&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;推荐：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;公司有大量内部文档、需要AI帮忙查&lt;/li&gt;
&lt;li&gt;对数据安全敏感、想自托管&lt;/li&gt;
&lt;li&gt;已经在用Slack/Notion/Confluence的团队&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不推荐：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;个人用户——功能太多用不上&lt;/li&gt;
&lt;li&gt;没技术运维能力的——要么用云端版，要么找人托管&lt;/li&gt;
&lt;li&gt;只想简单聊天的——直接用ChatGPT/Claude更省事&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;先试云端版：&lt;a href=&#34;https://cloud.onyx.app&#34;&gt;cloud.onyx.app&lt;/a&gt; 注册就能用&lt;/li&gt;
&lt;li&gt;自托管一键装：&lt;code&gt;curl -fsSL https://onyx.app/install_onyx.sh | bash&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;填LLM的API密钥：OpenAI、Claude、Gemini都行&lt;/li&gt;
&lt;li&gt;接知识源：选需要连的应用授权&lt;/li&gt;
&lt;li&gt;开始用：上传文档或连上应用后就能问问题了&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;如果你公司内部知识多、又想控制数据，Onyx值得花时间搭。社区版免费且功能完整，自托管成本低。&lt;/p&gt;</description>
    </item>
    <item>
      <title>开源大模型推理优化实战：从vLLM到SGLang的技术演进</title>
      <link>https://haodaohang.top/posts/2026-03-28-article-2/</link>
      <pubDate>Sat, 28 Mar 2026 12:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-03-28-article-2/</guid>
      <description>&lt;h2 id=&#34;推理优化的军备竞赛&#34;&gt;推理优化的军备竞赛&lt;/h2&gt;
&lt;p&gt;过去两年，大模型领域最激烈的竞争不只发生在模型层，更发生在推理层。&lt;/p&gt;
&lt;p&gt;从HuggingFace Transformers的原始实现，到vLLM横空出世，再到SGLang、TensorRT-LLM等框架百花齐放，推理优化的战场硝烟弥漫。为什么？因为推理成本直接决定了大模型应用的商业模式是否成立。&lt;/p&gt;
&lt;p&gt;一个简单的对比：同样跑Llama-3-70B，未经优化的实现可能每秒只能处理几个请求，而经过优化后可以达到数百QPS。这意味着同样的硬件成本，服务能力提升了两个数量级。&lt;/p&gt;
&lt;h2 id=&#34;vllmpagedattention的革命&#34;&gt;vLLM：PagedAttention的革命&lt;/h2&gt;
&lt;p&gt;vLLM的核心创新是PagedAttention，这个设计借鉴了操作系统的虚拟内存管理。&lt;/p&gt;
&lt;p&gt;传统实现中，每个请求的KV Cache都需要预先分配一大块连续内存。问题是：你不知道请求会产生多长的序列，分配大了浪费，分配小了会OOM。更致命的是，内存碎片化严重。&lt;/p&gt;
&lt;p&gt;PagedAttention把KV Cache切分成固定大小的块，按需分配。就像操作系统管理物理内存一样，逻辑上是连续的，物理上可以离散。这个看似简单的改动，让内存利用率从20%-40%提升到接近100%。&lt;/p&gt;
&lt;p&gt;实际测试中，vLLM在相同硬件上能处理的并发请求量，比HuggingFace原生实现高出4-10倍。这就是&amp;quot;算法创新&amp;quot;的力量。&lt;/p&gt;
&lt;h2 id=&#34;sglangradixattention更进一步&#34;&gt;SGLang：RadixAttention更进一步&lt;/h2&gt;
&lt;p&gt;SGLang来自UC Berkeley和Stanford的联合团队，核心贡献是RadixAttention。&lt;/p&gt;
&lt;p&gt;名字里的&amp;quot;Radix&amp;quot;（基数）揭示了关键思想：前缀共享。当多个请求有相同的prompt前缀时（比如system prompt），传统方法会为每个请求单独计算和存储KV Cache。RadixAttention让这些前缀只计算一次，多请求复用。&lt;/p&gt;
&lt;p&gt;实际场景中，这带来惊人的效率提升。比如一个客服AI，每个用户的对话都以&amp;quot;你是一个专业的客服助手&amp;hellip;&amp;ldquo;开头，这个前缀的KV Cache只需要计算一次。后续所有请求都能直接复用。&lt;/p&gt;
&lt;p&gt;SGLang还在其他方面做了优化：连续批处理、CUDA Graph优化、更高效的调度策略。综合下来，在某些场景下比vLLM还快20%-50%。&lt;/p&gt;
&lt;h2 id=&#34;tensorrt-llmnvidia的官方答案&#34;&gt;TensorRT-LLM：NVIDIA的官方答案&lt;/h2&gt;
&lt;p&gt;NVIDIA作为硬件厂商，下场做推理框架有其天然优势：最懂GPU的，就是造GPU的人。&lt;/p&gt;
&lt;p&gt;TensorRT-LLM集成了NVIDIA多年的优化经验：Kernel Fusion（算子融合）、INT4/INT8量化、FP8支持、多GPU并行。这些优化深入到GPU微架构级别，是通用框架难以触及的。&lt;/p&gt;
&lt;p&gt;缺点也很明显：NVIDIA绑定，主要支持自家硬件；开源程度和社区活跃度不如vLLM/SGLang；使用门槛相对较高。&lt;/p&gt;
&lt;p&gt;如果你的生产环境全是NVIDIA GPU，且对性能要求极致，TensorRT-LLM值得投入。&lt;/p&gt;
&lt;h2 id=&#34;选型决策树&#34;&gt;选型决策树&lt;/h2&gt;
&lt;p&gt;说了这么多，实际项目该怎么选？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;快速原型 / 学术研究&lt;/strong&gt;：vLLM。社区活跃，文档完善，开箱即用。遇到问题Stack Overflow上大概率能找到答案。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;高并发服务 / 前缀复用场景&lt;/strong&gt;：SGLang。多用户共享system prompt、RAG应用、多轮对话场景，RadixAttention的优势明显。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;极致性能 / NVIDIA环境&lt;/strong&gt;：TensorRT-LLM。生产环境追求每一点性能提升，有工程团队投入优化。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;多硬件支持&lt;/strong&gt;：vLLM。支持AMD、Intel、Apple Silicon等多种硬件，灵活性最高。&lt;/p&gt;
&lt;p&gt;实际项目中，建议先从vLLM起步，验证可行性和业务价值。遇到瓶颈时，再根据具体问题考虑迁移到其他框架。&lt;/p&gt;
&lt;h2 id=&#34;被忽视的成本工程投入&#34;&gt;被忽视的成本：工程投入&lt;/h2&gt;
&lt;p&gt;选择框架不只是选择性能指标，更是选择工程投入。&lt;/p&gt;
&lt;p&gt;vLLM的社区最成熟，遇到问题能快速找到解决方案。SGLang发展迅速但生态还在建设中。TensorRT-LLM学习曲线陡峭，需要团队有深厚的GPU优化背景。&lt;/p&gt;
&lt;p&gt;一个真实的案例：某团队为了追求极致性能，从vLLM迁移到TensorRT-LLM。结果花了三个月才完成迁移，期间服务不稳定，最终性能提升只有15%。算上人力成本，得不偿失。&lt;/p&gt;
&lt;p&gt;我的建议是：先验证业务价值，再追求性能极致。除非推理成本已经是制约业务的瓶颈，否则不要过早优化。&lt;/p&gt;
&lt;h2 id=&#34;未来趋势&#34;&gt;未来趋势&lt;/h2&gt;
&lt;p&gt;推理优化还在快速演进。&lt;/p&gt;
&lt;p&gt;显存优化方面，FlashAttention已经到了第三代，每一代都带来显著的性能提升。量化技术从INT8发展到INT4甚至更低，精度损失在可控范围内。投机解码（Speculative Decoding）成为新热点，用小模型预测、大模型验证，能大幅提升吞吐。&lt;/p&gt;
&lt;p&gt;另一个值得关注的趋势是：模型架构正在针对推理效率进行优化。比如Mamba、RWKV等线性复杂度架构，在长序列场景下比Transformer更有优势。&lt;/p&gt;
&lt;p&gt;硬件层面，H100/H200相比A100不只是显存更大、算力更强，还引入了FP8等新特性。这些硬件创新反过来推动了软件优化。&lt;/p&gt;
&lt;h2 id=&#34;写在最后&#34;&gt;写在最后&lt;/h2&gt;
&lt;p&gt;推理优化是一个不断演进的领域。今天的最优解，明年可能就被新的技术超越。&lt;/p&gt;
&lt;p&gt;作为工程师，理解底层原理比追逐最新框架更重要。PagedAttention、RadixAttention的核心思想不会过时，这些算法创新才是解决问题的根本。&lt;/p&gt;
&lt;p&gt;选择工具时，记住一个原则：没有银弹，只有权衡。最先进的技术不一定是最好的选择，最适合你场景的才是。&lt;/p&gt;
&lt;p&gt;代码写得再快，最终还是要跑在真实的服务器上。理解推理优化，就是理解大模型应用的&amp;quot;最后一公里&amp;rdquo;。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
