<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>MarkItDown on 赛博工具站</title>
    <link>https://haodaohang.top/tags/markitdown/</link>
    <description>Recent content in MarkItDown on 赛博工具站</description>
    <image>
      <title>赛博工具站</title>
      <url>https://haodaohang.top/images/cover.png</url>
      <link>https://haodaohang.top/images/cover.png</link>
    </image>
    <generator>Hugo -- 0.152.2</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 11 Apr 2026 10:00:00 +0800</lastBuildDate>
    <atom:link href="https://haodaohang.top/tags/markitdown/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>MarkItDown评测：微软出品的文件转Markdown利器</title>
      <link>https://haodaohang.top/posts/2026-04-11-markitdown-review/</link>
      <pubDate>Sat, 11 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://haodaohang.top/posts/2026-04-11-markitdown-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;微软搞了个Python工具，专门把各种文件转成Markdown。PDF、Word、Excel、PPT、图片、音频，扔进去就吐出Markdown。拿它喂LLM特别顺手。&lt;/p&gt;
&lt;p&gt;核心思路很简单：主流LLM（GPT-4o、Claude这些）都&amp;quot;说&amp;quot;Markdown，训练数据里大量Markdown，理解得好，token消耗还低。MarkItDown就把杂七杂八的格式统一成Markdown，让LLM更好消化。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多格式支持&lt;/strong&gt;：PDF、Word、Excel、PowerPoint、图片（EXIF元数据+OCR）、音频（语音转文字）、HTML、CSV、JSON、XML、ZIP、YouTube链接、电子书&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;保留文档结构&lt;/strong&gt;：标题、列表、表格、链接都能识别，不是简单粗暴提取文字&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;MCP集成&lt;/strong&gt;：内置Model Context Protocol服务器，能跟Claude Desktop这类LLM应用直接联动&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;插件系统&lt;/strong&gt;：第三方插件扩展功能，比如markitdown-ocr用LLM视觉能力做OCR&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Azure文档智能&lt;/strong&gt;：可对接Azure Document Intelligence，处理复杂文档&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源版&lt;/td&gt;
          &lt;td&gt;免费&lt;/td&gt;
          &lt;td&gt;全功能，无限制&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Azure增强&lt;/td&gt;
          &lt;td&gt;按Azure计费&lt;/td&gt;
          &lt;td&gt;文档智能API调用量计费&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;这个工具完全开源免费，代码托管在GitHub。唯一成本是你如果要用Azure Document Intelligence增强版，才需要按Azure的计费标准付钱。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;微软官方维护，质量有保障&lt;/td&gt;
          &lt;td&gt;需要Python环境，对非技术用户有门槛&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持格式极其全面&lt;/td&gt;
          &lt;td&gt;某些格式（如扫描PDF）需要额外OCR配置&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;输出的Markdown质量高，结构清晰&lt;/td&gt;
          &lt;td&gt;音频转写依赖额外依赖包&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;开源免费，代码可审计&lt;/td&gt;
          &lt;td&gt;没有图形界面，纯命令行/Python API&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持LLM图片描述功能&lt;/td&gt;
          &lt;td&gt;文档相对简陋&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;推荐给：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;需要把大量文档喂给LLM的开发者&lt;/li&gt;
&lt;li&gt;做RAG（检索增强生成）项目的工程师&lt;/li&gt;
&lt;li&gt;内容创作者，想把PDF/Word转成可编辑的Markdown&lt;/li&gt;
&lt;li&gt;数据分析师，需要从PDF报告里提取结构化数据&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不推荐：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;寻找图形界面工具的普通用户&lt;/li&gt;
&lt;li&gt;只需要简单PDF转文字的场景（在线工具更快）&lt;/li&gt;
&lt;li&gt;对格式保真度要求极高的人（这是给LLM看的，不是给人看的精美排版）&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;安装&#34;&gt;安装&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;markitdown[all]&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;如果只想装特定格式的支持：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;markitdown[pdf,docx,pptx]&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;命令行使用&#34;&gt;命令行使用&lt;/h3&gt;
&lt;p&gt;最简单的方式：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;markitdown 你的文件.pdf &amp;gt; 输出.md
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;指定输出文件：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;markitdown 文件.docx -o 输出.md
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;管道方式：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
