跳转至

html2text2

https://github.com/CNSeniorious000/html2text

html2text2 是 html2text 的替代品,用 Python 内置 html.parser.HTMLParser 将 HTML 转换为干净的 Markdown 文本。支持链接、表格、列表等格式化,配置丰富。

功能

  • HTML 到 Markdown 转换
  • 支持表格、列表、链接、图片
  • CLI 工具和库接口
  • Google Docs HTML 处理

实现

使用 HTMLParser 解析 HTML,生成 Markdown 输出。配置选项控制格式化行为,如链接样式、表格填充、代码块。

深入洞见

这个库作为 html2text 的现代化替代,采用 PEP 517/621 标准,使用 pyproject.toml 和 setuptools_scm 动态版本。代码结构清晰,分离配置、工具和元素处理。支持复杂 HTML 结构如嵌套列表和表格,保持格式化完整性。

参考源码:__init__.py(主类) · config.py(配置) · elements.py(元素处理)