开源PDF转Markdown项目 Vision Parse，支持各大主流AI模型

Aloha6个月前发布

490

Vision Parse 是一个基于最先进的视觉语言模型的 PDF 文档处理工具。它可以从扫描文档中智能地识别和提取文本、表格和 LaTeX 方程式,并将其转换为高格式化的 Markdown 内容。该工具支持多种视觉语言模型,如 OpenAI、Gemini 和 Llama,并提供了丰富的定制参数来优化文档处理性能。

GitHub地址：https://github.com/iamarunbrahma/vision-parse

主要功能点

扫描文档处理: 从扫描文档中智能提取文本、表格和 LaTeX 方程式,并转换为 Markdown 格式。
高级内容格式化: 保留 LaTeX 方程式、超链接、图像和文档层次结构,生成高格式化的 Markdown 内容。
多 LLM 支持: 与 OpenAI、Gemini 和 Llama 等多种视觉语言模型无缝集成,以获得最佳的准确性和速度。
本地模型托管: 支持使用 Ollama 在本地托管模型,实现安全、无成本、私有和离线的文档处理。

技术栈

Python >= 3.9
Ollama (用于本地模型托管)
OpenAI、Google Gemini 等视觉语言模型 API

支持的模型列表：

Model Name	Provider Name
gpt-4o	OpenAI
gpt-4o-mini	OpenAI
gemini-1.5-flash	Google
gemini-2.0-flash-exp	Google
gemini-1.5-pro	Google
llava:13b	Ollama
llava:34b	Ollama
llama3.2-vision:11b	Ollama
llama3.2-vision:70b	Ollama
deepseek-r1:32b	Ollama
deepseek-chat	DeepSeek