开源PDF转Markdown项目 Vision Parse,支持各大主流AI模型

Vision Parse 是一个基于最先进的视觉语言模型的 PDF 文档处理工具。它可以从扫描文档中智能地识别和提取文本、表格和 LaTeX 方程式,并将其转换为高格式化的 Markdown 内容。该工具支持多种视觉语言模型,如 OpenAI、Gemini 和 Llama,并提供了丰富的定制参数来优化文档处理性能。

GitHub地址:https://github.com/iamarunbrahma/vision-parse

主要功能点

  1. 扫描文档处理: 从扫描文档中智能提取文本、表格和 LaTeX 方程式,并转换为 Markdown 格式。
  2. 高级内容格式化: 保留 LaTeX 方程式、超链接、图像和文档层次结构,生成高格式化的 Markdown 内容。
  3. 多 LLM 支持: 与 OpenAI、Gemini 和 Llama 等多种视觉语言模型无缝集成,以获得最佳的准确性和速度。
  4. 本地模型托管: 支持使用 Ollama 在本地托管模型,实现安全、无成本、私有和离线的文档处理。

技术栈

  • Python >= 3.9
  • Ollama (用于本地模型托管)
  • OpenAI、Google Gemini 等视觉语言模型 API

支持的模型列表:

Model Name Provider Name
gpt-4o OpenAI
gpt-4o-mini OpenAI
gemini-1.5-flash Google
gemini-2.0-flash-exp Google
gemini-1.5-pro Google
llava:13b Ollama
llava:34b Ollama
llama3.2-vision:11b Ollama
llama3.2-vision:70b Ollama
deepseek-r1:32b Ollama
deepseek-chat DeepSeek

许可证

本项目采用 MIT 许可证。

主要功能点

  1. 扫描文档处理: 从扫描文档中智能提取文本、表格和 LaTeX 方程式,并转换为 Markdown 格式。
  2. 高级内容格式化: 保留 LaTeX 方程式、超链接、图像和文档层次结构,生成高格式化的 Markdown 内容。
  3. 多 LLM 支持: 与 OpenAI、Gemini 和 Llama 等多种视觉语言模型无缝集成,以获得最佳的准确性和速度。
  4. 本地模型托管: 支持使用 Ollama 在本地托管模型,实现安全、无成本、私有和离线的文档处理。

技术栈

  • Python >= 3.9
  • Ollama (用于本地模型托管)
  • OpenAI、Google Gemini 等视觉语言模型 API

许可证

本项目采用 MIT 许可证。

 

请登录后发表评论

    没有回复内容