如何用Python提取扫描件PDF中的表格并转为结构化文本？

有什么办法可以识别扫描件里的表格？
我需要提取扫描出来的PDF里的表格，以一个大模型能理解的方式变成文本给到大模型，有什么好的方案吗？

我调研了以下常见的 Python 库：

上述库的共同局限在于：均依赖 PDF 文档的文本层或矢量线框信息，而扫描件本质上是图像构成，文字以位图形式存在，不存在可解析的结构化信息。因
此这些方案在扫描件场景下均无法正常工作。

我希望能有一款工具，可以是python或者某种可以被自动化的方式（CLI/API），能够把PDF里的表格结构提取出来，让我能够在下一个节点里给到大模型做分析。