主要行业
点击进入可选择细分行业
【免责条款】
1. 用户直接或通过各类方式间接使用慧博投研资讯所提供的服务和数据的行为,都将被视作已无条件接受本声明所涉全部内容;若用户对本声明的任何条款有异议,请停止使用慧博投研资讯所提供的全部服务。
2. 用户需知,研报资料由网友上传,所有权归上传网友所有,慧博投研资讯仅提供存放服务,慧博投研资讯不保证资料内容的合法性、正确性、完整性、真实性或品质;
3. 任何单位或个人若认为慧博投研资讯所提供内容可能存在侵犯第三人著作权的情形,应该及时向慧博投研资讯提出书面权利通知,并提供身份证明、权属证明及详细侵权情况证明。慧博投研资讯将遵循"版权保护投诉指引"处理该信息内容;
4.本条款是本站免责条款的附则,其他更多内容详见本站底部《免责声明》;
近日JPMorgan AI团队Dongsheng W. et al研发了DocLLM。http://www.hibor.com.cn【慧博投研资讯】该模型特别强调空间结构,避免使用复杂的图像编码器。http://www.hibor.com.cn(慧博投研资讯)其架构包含了分离的空间注意力机制和独特的预训练策略,包括填充文本段落。在处理企业文档中常见的不规则布局和多样化内容方面,DocLLM展示了比现有最先进的语言模型更优异的性能。
DocLLM强调空间信息
文档智能本质上是一个多模态问题,其中文本内容和视觉布局线索对于理解文档至关重要。这要求有别于传统大型语言模型(如GPT-3.5、Llama等)的解决方案,这些模型主要接受文本输入并假设文档具有简单的布局和统一的格式。DocLLM模型强调了空间信息作为重要的辅助背景信号的处理,这与需要复杂视觉骨干架构来编码图像信息的许多视觉-语言框架不同。
通过修改预训练目标解决传统文档处理难题
对于视觉文档的异质内容、不规则布局和分散的文本段落,传统的下一个标记预测目标可能受限。为了解决这个问题,DocLLM提出了两种修改预训练目标的方法:采用包含更广泛背景的连贯文本块,以及实现一种基于前后标记的填充方法。这些修改使模型能够更好地处理文本对齐不一致、上下文补全、复杂布局和混合数据类型。
提出新的Attention机制捕获跨模态关系
DocLLM模型展示了仅包含空间布局结构就足以处理各种文档智能任务,如表格理解、表格对齐和视觉问答。与其他模型将空间和文本嵌入串联或求和的方式不同,DocLLM将空间信息视为一种独立的模态,并以解耦的方式计算其与文本模态的相互依赖关系。通过扩展标准变换器的自注意机制,包括新的注意力得分来捕获跨模态关系,能够在不同抽象层次上表示表单中字段的内容位置和大小的相关性,从而增强对文档的理解
风险提示
本报告依据最新前沿论文进行解读评述,若有理解不当请以原始论文表述为准。且本报告为AI应用方法和框架介绍,并不作为有效投资方法建议,仅供参考。
为了完善报告评分体系,请在看完报告后理性打个分,以便我们以后为您展示更优质的报告。
您也可以对自己点评与评分的报告在“我的云笔记”里进行复盘管理,方便您的研究与思考,培养良好的思维习惯。
正在加载,请稍候...