Vision Parse 是一个基于最先进的视觉语言模型的 PDF 文档处理工具。它可以从扫描文档中智能地识别和提取文本、表格和 LaTeX 方程式,并将其转换为高格式化的 Markdown 内容。该工具支持多种视觉语言模型,如 OpenAI、Gemini 和 Llama,并提供了丰富的定制参数来优化文档处理性能。
GitHub地址:https://github.com/iamarunbrahma/vision-parse
主要功能点
- 扫描文档处理: 从扫描文档中智能提取文本、表格和 LaTeX 方程式,并转换为 Markdown 格式。
- 高级内容格式化: 保留 LaTeX 方程式、超链接、图像和文档层次结构,生成高格式化的 Markdown 内容。
- 多 LLM 支持: 与 OpenAI、Gemini 和 Llama 等多种视觉语言模型无缝集成,以获得最佳的准确性和速度。
- 本地模型托管: 支持使用 Ollama 在本地托管模型,实现安全、无成本、私有和离线的文档处理。
技术栈
- Python >= 3.9
- Ollama (用于本地模型托管)
- OpenAI、Google Gemini 等视觉语言模型 API
支持的模型列表:
Model Name | Provider Name |
---|---|
gpt-4o | OpenAI |
gpt-4o-mini | OpenAI |
gemini-1.5-flash | |
gemini-2.0-flash-exp | |
gemini-1.5-pro | |
llava:13b | Ollama |
llava:34b | Ollama |
llama3.2-vision:11b | Ollama |
llama3.2-vision:70b | Ollama |
deepseek-r1:32b | Ollama |
deepseek-chat | DeepSeek |
许可证
本项目采用 MIT 许可证。
主要功能点
- 扫描文档处理: 从扫描文档中智能提取文本、表格和 LaTeX 方程式,并转换为 Markdown 格式。
- 高级内容格式化: 保留 LaTeX 方程式、超链接、图像和文档层次结构,生成高格式化的 Markdown 内容。
- 多 LLM 支持: 与 OpenAI、Gemini 和 Llama 等多种视觉语言模型无缝集成,以获得最佳的准确性和速度。
- 本地模型托管: 支持使用 Ollama 在本地托管模型,实现安全、无成本、私有和离线的文档处理。
技术栈
- Python >= 3.9
- Ollama (用于本地模型托管)
- OpenAI、Google Gemini 等视觉语言模型 API
许可证
本项目采用 MIT 许可证。
没有回复内容