有什么办法可以识别扫描件里的表格?
我需要提取扫描出来的PDF里的表格,以一个大模型能理解的方式变成文本给到大模型,有什么好的方案吗?
我调研了以下常见的 Python 库:
- pdfplumber — 仅支持 PDF 文字层提取,扫描件中不存在文本内容,无法使用
- tabula-py — 基于 PDF 文字层解析表格,扫描件场景下同样失效
- camelot — 依赖文本层和表格线框检测,对纯图像型表格识别能力有限,复杂表格效果较差
- PyPDF2 — 纯文字提取工具,不涉及表格结构解析,对扫描件完全无效
上述库的共同局限在于:均依赖 PDF 文档的文本层或矢量线框信息,而扫描件本质上是图像构成,文字以位图形式存在,不存在可解析的结构化信息。因
此这些方案在扫描件场景下均无法正常工作。
我希望能有一款工具,可以是python或者某种可以被自动化的方式(CLI/API),能够把PDF里的表格结构提取出来,让我能够在下一个节点里给到大模型做分析。