主要行业

　　近日JPMorgan AI团队Dongsheng W. et al研发了DocLLM。该模型特别强调空间结构，避免使用复杂的图像编码器。其架构包含了分离的空间注意力机制和独特的预训练策略，包括填充文本段落。在处理企业文档中常见的不规则布局和多样化内容方面，DocLLM展示了比现有最先进的语言模型更优异的性能。

　　DocLLM强调空间信息

　　文档智能本质上是一个多模态问题，其中文本内容和视觉布局线索对于理解文档至关重要。这要求有别于传统大型语言模型（如GPT-3.5、Llama等）的解决方案，这些模型主要接受文本输入并假设文档具有简单的布局和统一的格式。DocLLM模型强调了空间信息作为重要的辅助背景信号的处理，这与需要复杂视觉骨干架构来编码图像信息的许多视觉-语言框架不同。

　　通过修改预训练目标解决传统文档处理难题

　　对于视觉文档的异质内容、不规则布局和分散的文本段落，传统的下一个标记预测目标可能受限。为了解决这个问题，DocLLM提出了两种修改预训练目标的方法：采用包含更广泛背景的连贯文本块，以及实现一种基于前后标记的填充方法。这些修改使模型能够更好地处理文本对齐不一致、上下文补全、复杂布局和混合数据类型。

　　提出新的Attention机制捕获跨模态关系

　　DocLLM模型展示了仅包含空间布局结构就足以处理各种文档智能任务，如表格理解、表格对齐和视觉问答。与其他模型将空间和文本嵌入串联或求和的方式不同，DocLLM将空间信息视为一种独立的模态，并以解耦的方式计算其与文本模态的相互依赖关系。通过扩展标准变换器的自注意机制，包括新的注意力得分来捕获跨模态关系，能够在不同抽象层次上表示表单中字段的内容位置和大小的相关性，从而增强对文档的理解

　　风险提示

　　本报告依据最新前沿论文进行解读评述，若有理解不当请以原始论文表述为准。且本报告为AI应用方法和框架介绍，并不作为有效投资方法建议，仅供参考。

我要报错

点击浏览报告原文

我要给此报告打分： (带*号为必填)

*我要评分：

当前已有6条点评记录，查看大家的点评记录

主要行业

热门行业

精选研报

浙商证券-AI前沿点评（十）：DocLLM，多模态文档理解大语言模型-240109