[python] 使用Python实现Markdown文档格式转换

第璋胁 · 2025-6-3 14:22:22

本文主要介绍如何利用Python中的MarkItDown库将多种文件高效转换为Markdown文本，以及如何使用Python-Markdown库将Markdown文本转换为HTML（超文本标记语言）文本。
Markdown是一种轻量级的标记语言，用于以简洁易读的方式编写文本内容，同时能够方便地转换为结构化的HTML文本或其他格式，常用于编写文档、博客、论坛帖子等。它与纯文本极为接近，几乎不带任何标记或格式，却仍能有效呈现文档的重要结构。Markdown的详细使用说明可参考：Markdown教程。
主流的大型语言模型（LLM），如OpenAI的GPT-4，天生便“精通”Markdown，并且常常在未被提示的情况下将其融入回应之中。此外，Markdown的规范还具有极高的编码效率，可谓一举多得。

因此，学习Markdown语言的使用，并通过Python实现Markdown文本与其他格式文本的相互转换，能够提高文档编写的效率和质量，满足不同场景下的文档处理需求。

目录

1 MarkItDown库
- 1.1 MarkItDown库介绍
- 1.2 MarkItDown库使用示例
2 Python-Markdown库
- 2.1 Python-Markdown库介绍
- 2.2 Python-Markdown库使用示例
3 参考

1 MarkItDown库

1.1 MarkItDown库介绍

MarkItDown库是一款轻量级的Python版Markdown格式解析与渲染工具，能够将多种文件格式高效转换为Markdown格式，从而满足大语言模型（LLMs）及相关文本分析流程的需求。它专注于以Markdown格式精准保留文档的关键结构与内容，包括标题、列表、表格、链接等元素。虽然其输出结果既美观又易于人类用户阅读，但其核心设计宗旨是为文本分析工具提供支持，因此对于那些需要高保真度转换以供人类阅读的文档，它可能并非最优选择。
目前，MarkItDown库支持以下文件类型的转换：

PDF
PowerPoint（按从上到下、从左到右的顺序读取内容）
Word
Excel
图片（支持EXIF元数据提取和光学字符识别OCR）
音频（支持EXIF元数据提取和语音转录）
HTML
基于文本的格式（如CSV、JSON、XML）
ZIP文件（可遍历文件内的内容进行转换）
YouTube网址
以及其他更多类型！

MarkItDown库的官方仓库见：markitdown，MarkItDown需要在Python3.10及以上版本运行，MarkItDown库安装代码如下：

pip install 'markitdown[all]~=0.1.0a1'

或者从源代码安装：

git clone git@github.com:microsoft/markitdown.gitcd markitdownpip install -e packages/markitdown[all]

复制代码

Markitdown与其他同类型工具库的比较见：Markitdown对比分析。
1.2 MarkItDown库使用示例

MarkItDown库将不同文件转换为Markdown格式的方式非常简单。只需初始化工具类，然后调用类对象的convert方法对文件进行转换，并输出Markdown格式字符串即可。
示例 1
以下代码展示了如何生成示例Excel数据，并使用MarkItDown库将其转换为Markdown格式的字符串和文件：

import pandas as pdimport numpy as np# 生成一些示例数据np.random.seed(0)data = { 'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'], 'Age': [25, 30, 35, 40, 45, 50], 'Gender': ['Female', 'Male', 'Male', 'Male', 'Female', 'Male'], 'Score1': np.random.randint(0, 100, 6), 'Score2': np.random.randint(0, 100, 6)}# 创建一个基本的DataFramedf = pd.DataFrame(data)# 添加多级索引index = pd.MultiIndex.from_product([['Group A', 'Group B'], ['Subgroup 1', 'Subgroup 2', 'Subgroup 3']], names=['Group', 'Subgroup'])df.index = index# 计算每行的总分和平均分df['Total Score'] = df[['Score1', 'Score2']].sum(axis=1)df['Average Score'] = df[['Score1', 'Score2']].mean(axis=1)# 显示表格# print(df)# 保存表格为xlsx文件df.to_excel('test.xlsx')# 将excel转换为markdown文件from markitdown import MarkItDown# 通过传递enable_plugins=Fals参数，表明在进行转换时不启用插件功能md = MarkItDown(enable_plugins=False) # 调用md对象的convert方法，将test.xlsx文件进行转换result = md.convert("test.xlsx")# text_content为一个字符串print(result.text_content)# 返回结果为字典print(result.__dict__)# 将结果保存为Markdown文件# 定义要保存的Markdown文件的文件名output_file = "output.md"# 以写入模式打开文件，如果文件不存在则创建with open(output_file, 'w', encoding='utf-8') as file: # 将转换后的文本内容写入文件 file.write(result.text_content)

复制代码

示例 2
本示例展示了使用MarkItDown库将pdf文件转换为Markdown数据，并开启Azure Document Intelligence功能，也就是利用Microsoft文档智能辅助进行转换。注意，此过程不会转换PDF中的图片。

import randomimport string# pip install fpdffrom fpdf import FPDFfrom PIL import Image, ImageDraw, ImageFont# 生成随机文字def generate_random_text(length): letters = string.ascii_letters + string.digits + string.punctuation return ''.join(random.choice(letters) for i in range(length))# 生成随机图片def generate_random_image(width, height): # 创建一个随机颜色的图片 image = Image.new('RGB', (width, height), color=( random.randint(0, 255), random.randint(0, 255), random.randint(0, 255) )) draw = ImageDraw.Draw(image) font = ImageFont.load_default() # 在图片上添加随机文字 text = generate_random_text(20) draw.text((10, 10), text, fill=(255, 255, 255), font=font) image_path = 'random_image.png' image.save(image_path) return image_path# 创建PDF并添加随机图片和文字def create_pdf(): pdf = FPDF() pdf.add_page() # 添加随机文字到PDF顶部 top_text = generate_random_text(100) pdf.set_font("Arial", size=12) pdf.multi_cell(0, 10, txt=top_text) # 生成随机图片 image_path = generate_random_image(300, 200) # 添加图片到PDF pdf.image(image_path, x=10, y=pdf.get_y(), w=100) # 移动到图片下方 pdf.ln(210) # 添加随机文字到PDF底部 bottom_text = generate_random_text(100) pdf.multi_cell(0, 10, txt=bottom_text) # 保存PDF pdf.output("test.pdf")# 创建PDFcreate_pdf()from markitdown import MarkItDown# 将文档转换为markdown# Azure文档智能：可以使用Microsoft文档智能进行转换md = MarkItDown(docintel_endpoint="")# 不会转换PDF中的图片result = md.convert("test.pdf")print(result.text_content)

复制代码

示例 3
本示例展示了借助MarkItDown库使用大语言模型生成图像描述。在初始化该工具类时，需提供大语言模型客户端（llm_client）和大语言模型名字（llm_model）。

from markitdown import MarkItDownfrom openai import OpenAIclient = OpenAI()md = MarkItDown(llm_client=client, llm_model="gpt-4o")result = md.convert("example.jpg")print(result.text_content)

复制代码

2 Python-Markdown库

2.1 Python-Markdown库介绍

若需将Markdown格式转换为HTML或其他格式，可以使用Python中的Python-Markdown库。该库是Markdown格式转换为HTML的纯Python实现，它支持标准的Markdown语法，并提供了许多扩展以增强功能。
Python-Markdown库的官方仓库见：Python-Markdown，Python-Markdown库需要在Python3.7及以上版本运行，Python-Markdown库安装代码如下：

pip install markdown

2.2 Python-Markdown库使用示例

示例 1
本示例展示了如何基于Python-Markdown库将Markdown文本转换为HTML。需注意，Python-Markdown库采用的是原始Markdown语法，即当列表项由多个段落构成时，列表项中每个后续段落都必须以4个空格的缩进起始。

import markdownprint(f'Markdown Version: {markdown.__version__}')# 定义Markdown文本markdown_text = """# 这是一个markdown标题这是一段普通文字，后续为列表项需要换行或者4个空格。- 列表项 1- 列表项 2[markdown超链接](https://www.example.com)"""# 将Markdown文本转换为 HTMLhtml_text = markdown.markdown(markdown_text)# 打印转换后的HTML文本print(html_text)

复制代码

示例 2
本示例展示了基于Python-Markdown库从本地Markdown文件中读取内容，并将其转换为HTM格式：

import markdowndef create_example_markdown(file_path): example_content = """# markdown示例标题这是一个示例的Markdown文件内容。## 子标题下面是一个无序列表：- 列表项 1- 列表项 2这里还有一个有序列表：1. 有序项 12. 有序项 2""" try: with open(file_path, 'w', encoding='utf-8') as file: file.write(example_content) print("示例 Markdown 文件已创建。") except Exception as e: print(f"错误: 创建文件时发生未知错误: {e}")def read_markdown_file(file_path): try: with open(file_path, 'r', encoding='utf-8') as file: return file.read() except FileNotFoundError: print(f"错误: 文件 {file_path} 未找到。") return None except Exception as e: print(f"错误: 读取文件时发生未知错误: {e}") return None# 创建本地示例markdown文件file_path = 'example.md'create_example_markdown(file_path)markdown_text = read_markdown_file(file_path)if markdown_text is not None: html_text = markdown.markdown(markdown_text) print(html_text)

复制代码

示例 3
本示例展示了在使用Python-Markdown库将Markdown文本转换为HTML的过程中，如何运用自定义扩展函数来修改生成的HTML格式。例如为标题和列表项添加样式。

from markdown.treeprocessors import Treeprocessorfrom markdown.extensions import Extensionclass MarkdownStyleProcessor(Treeprocessor): # 遍历html节点设置不同参数 def run(self, tree_root): for element in tree_root.iter(): if element.tag == "h1": element.set("class", "custom-h1") element.set("style", "color: #007BFF; font-size: 2.5em; margin-bottom: 0.5em;") elif element.tag == "h2": element.set("class", "custom-h2") element.set("style", "color: #00FF00; font-size: 1.1em; margin-bottom: 0.3em;")class MarkdownStyleExtension(Extension): # 该方法用于扩展Markdown对象 def extendMarkdown(self, markdown_obj): # markdown_style定义处理的名字。10表示表示处理器的优先级，值越大越往后处理 markdown_obj.treeprocessors.register(MarkdownStyleProcessor(markdown_obj), "markdown_style", 10)import markdowntry: with open("example.md", "r", encoding="utf-8") as file: markdown_content = file.read() # 将Markdown内容转换为HTML，同时使用自定义的扩展 html_result = markdown.markdown( markdown_content, extensions=[MarkdownStyleExtension()] ) print(html_result)except Exception as e: print(f"发生错误: {e}")

复制代码

示例 4
Python-Markdown库集成了若干插件，用以支持不同类型Markdown语法的转换。这些插件的调用可通过转换函数的extensions参数进行设置。以下是可扩展的功能及调用参数：
扩展功能调用参数模块路径额外功能extramarkdown.extensions.extra缩写abbrmarkdown.extensions.abbr属性列表attr_listmarkdown.extensions.attr_list定义列表def_listmarkdown.extensions.def_list围栏代码块fenced_codemarkdown.extensions.fenced_code脚注footnotesmarkdown.extensions.footnotesHTML中的Markdownmd_in_htmlmarkdown.extensions.md_in_html表格tablesmarkdown.extensions.tables警告admonitionmarkdown.extensions.admonition代码高亮codehilitemarkdown.extensions.codehilite遗留属性legacy_attrsmarkdown.extensions.legacy_attrs遗留强调legacy_emmarkdown.extensions.legacy_em元数据metamarkdown.extensions.meta新行转断行nl2brmarkdown.extensions.nl2br合理列表sane_listsmarkdown.extensions.sane_lists智能标点smartymarkdown.extensions.smarty目录tocmarkdown.extensions.tocWiki链接wikilinksmarkdown.extensions.wikilinks以下代码展示了如何基于Python-Markdown库从文件中读取Markdown内容，并利用该库的扩展功能来增添额外特性，例如脚注、代码块和表格。
示例markdown文件如下：

# 示例示例代码如下[^1]：print("Hello World!")示例表格如下[^2]：|姓名|年龄||:-|-:||张三|16||李四|23|[^1]: 示例代码[^2]: 示例表格

复制代码

转换代码如下：

import markdownwith open("example.md", "r", encoding="utf-8") as fd: markdown_text = fd.read()# 通过extensions参数设置转换格式html_output = markdown.markdown( markdown_text, extensions=["tables", "footnotes", "fenced_code"])print(html_output)

复制代码

3 参考

Markdown教程
markitdown
Markitdown对比分析
Azure Document Intelligence
Python-Markdown

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

决台 · 2025-11-6 01:31:22

感谢发布原创作品，程序园因你更精彩

寇秀娟 · 2025-12-1 12:46:14

感谢分享，下载保存了，貌似很强大

账号		自动登录	找回密码
密码			立即注册

[python] 使用Python实现Markdown文档格式转换

相关帖子

回复

签约作者

[python] 使用Python实现Markdown文档格式转换

相关帖子

相关推荐

回复

签约作者