通过布局分析隔离文档中的各个文本框
Posted: Sun Feb 16, 2025 3:49 am
光学字符识别 (OCR)
对于 OCR 来说,一种直接的方法是使用专门的深度学习模型,例如最近发布的开放权重转换器模型 GOT或嵌入在著名Tesseract 开源库中的 LSTM 模型。这些模型轻量、快速且有效。
然而,它们的性能取决于用例的实际情况。它们是否对某些语言以及手写和印刷文本表现良好取决于它们的训练数据集。例如,Tesseract 对手写文档的效果很差。此外,可能需要图像预处理步骤,例如:
使用霍夫变换校正文本方向;
消除视觉噪音(即与当前任务无关的细节);
调整文档的比例、亮度和对比度。
最近出现的强大的多模态 LLM (M-LLM) 为这些专门的 OCR 模型提供了替代方案。借助GPT-4o等 M-LLM 或InternVL等开放权重模型,我们可以简单地将目标图像包含在提示中,并要求模型提取其文本内容。与专门的模型一样,性能水平因用例环境而异,但通常非常强大。
然而,M-LLM 有时会表现出两种不良行为。首先,它们会在从文档中提取的文本中添加自己的注释,例如“图像中的文本是……”。其次,它们可能会纠正原始文档中一些拼写错误的单词,甚至“产生幻觉”某些内容。这两个问题都可能需要调整提示或对 LLM 输出进行后处理。
各种 OCR 方法的优缺点
各种 OCR 方法的优缺点
文档分类
M-LLM(例如Qwen2-VL或GPT-4o)也是将文档分类到预定类别列表(例如文章、电子邮件、信件、表格)中的强大选择。在这种情况下,提示将包括对文档进行分类的指令、类别列表、要分类的文档页面以及潜 秘鲁电话号码数据 在的小样本示例(即一些文档页面及其真实标签)。由于我们只期望指定类别中的一个,因此一个好的做法是使用结构化文本生成技术(例如函数调用或结构化输出)来减轻或消除无效答案的风险。
如果有相当大的训练数据集,也可以对模型进行微调。UDOP (通用文档处理)是一种开放权重模型,是文档 AI 任务的有力候选者。UDOP 使用OCR引擎(默认为 Tesseract),并将文本、布局和图像作为输入进行处理。它是一个多功能模型,能够执行各种任务,例如文档分类、布局分析、视觉问答、关键信息提取和文档生成。通常最好使用参数高效微调(PEFT)技术,例如LoRA,尤其是在训练数据集相对较小的情况下。
各种文档分类方法的优缺点
各种文档分类方法的优缺点
视觉问答
在这里,我们将问题限制在答案来自与问题一起提供的单个页面的问题上。涵盖整个文档的问答系统通常需要多模态检索增强生成 (RAG) 方法,该方法已在之前的博客文章中讨论过。
鉴于潜在问题的普遍性、生成一些文本内容的需要以及考虑页面的视觉和文本元素的需要, Qwen2-VL或GPT-4o 等M-LLM是视觉问答任务的首选方法。如果手头的领域非常具体,它们可能会进行微调,但最近的 M-LLM 通常能给出很好的答案,即使在零样本设置中也是如此。
评估问答系统的质量 尤其具有挑战性,因为同样有效的答案可以用非常不同的方式来表述,而最好的方法通常是使用LLM-as-a-judge 技术,即要求 LLM 评估生成的答案并将其与可用的真实答案进行比较。
对于 OCR 来说,一种直接的方法是使用专门的深度学习模型,例如最近发布的开放权重转换器模型 GOT或嵌入在著名Tesseract 开源库中的 LSTM 模型。这些模型轻量、快速且有效。
然而,它们的性能取决于用例的实际情况。它们是否对某些语言以及手写和印刷文本表现良好取决于它们的训练数据集。例如,Tesseract 对手写文档的效果很差。此外,可能需要图像预处理步骤,例如:
使用霍夫变换校正文本方向;
消除视觉噪音(即与当前任务无关的细节);
调整文档的比例、亮度和对比度。
最近出现的强大的多模态 LLM (M-LLM) 为这些专门的 OCR 模型提供了替代方案。借助GPT-4o等 M-LLM 或InternVL等开放权重模型,我们可以简单地将目标图像包含在提示中,并要求模型提取其文本内容。与专门的模型一样,性能水平因用例环境而异,但通常非常强大。
然而,M-LLM 有时会表现出两种不良行为。首先,它们会在从文档中提取的文本中添加自己的注释,例如“图像中的文本是……”。其次,它们可能会纠正原始文档中一些拼写错误的单词,甚至“产生幻觉”某些内容。这两个问题都可能需要调整提示或对 LLM 输出进行后处理。
各种 OCR 方法的优缺点
各种 OCR 方法的优缺点
文档分类
M-LLM(例如Qwen2-VL或GPT-4o)也是将文档分类到预定类别列表(例如文章、电子邮件、信件、表格)中的强大选择。在这种情况下,提示将包括对文档进行分类的指令、类别列表、要分类的文档页面以及潜 秘鲁电话号码数据 在的小样本示例(即一些文档页面及其真实标签)。由于我们只期望指定类别中的一个,因此一个好的做法是使用结构化文本生成技术(例如函数调用或结构化输出)来减轻或消除无效答案的风险。
如果有相当大的训练数据集,也可以对模型进行微调。UDOP (通用文档处理)是一种开放权重模型,是文档 AI 任务的有力候选者。UDOP 使用OCR引擎(默认为 Tesseract),并将文本、布局和图像作为输入进行处理。它是一个多功能模型,能够执行各种任务,例如文档分类、布局分析、视觉问答、关键信息提取和文档生成。通常最好使用参数高效微调(PEFT)技术,例如LoRA,尤其是在训练数据集相对较小的情况下。
各种文档分类方法的优缺点
各种文档分类方法的优缺点
视觉问答
在这里,我们将问题限制在答案来自与问题一起提供的单个页面的问题上。涵盖整个文档的问答系统通常需要多模态检索增强生成 (RAG) 方法,该方法已在之前的博客文章中讨论过。
鉴于潜在问题的普遍性、生成一些文本内容的需要以及考虑页面的视觉和文本元素的需要, Qwen2-VL或GPT-4o 等M-LLM是视觉问答任务的首选方法。如果手头的领域非常具体,它们可能会进行微调,但最近的 M-LLM 通常能给出很好的答案,即使在零样本设置中也是如此。
评估问答系统的质量 尤其具有挑战性,因为同样有效的答案可以用非常不同的方式来表述,而最好的方法通常是使用LLM-as-a-judge 技术,即要求 LLM 评估生成的答案并将其与可用的真实答案进行比较。