主要行业
点击进入可选择细分行业
【免责条款】
1. 用户直接或通过各类方式间接使用慧博投研资讯所提供的服务和数据的行为,都将被视作已无条件接受本声明所涉全部内容;若用户对本声明的任何条款有异议,请停止使用慧博投研资讯所提供的全部服务。
2. 用户需知,研报资料由网友上传,所有权归上传网友所有,慧博投研资讯仅提供存放服务,慧博投研资讯不保证资料内容的合法性、正确性、完整性、真实性或品质;
3. 任何单位或个人若认为慧博投研资讯所提供内容可能存在侵犯第三人著作权的情形,应该及时向慧博投研资讯提出书面权利通知,并提供身份证明、权属证明及详细侵权情况证明。慧博投研资讯将遵循"版权保护投诉指引"处理该信息内容;
4.本条款是本站免责条款的附则,其他更多内容详见本站底部《免责声明》;
Yadlowsky et al.在《 Pretraining Data Mixtures Enable Narrow Model SelectionCapabilities in Transformer Models》中给出了当前的ICL(上下文学习)底层方法上的局限性。http://www.hibor.com.cn【慧博投研资讯】他们发现有强有力的证据表明模型可以在上下文学习中在预训练的函数类之间进行模型选择,但只有有限的证据表明模型的上下文学习行为能够推广到预训练数据之外。http://www.hibor.com.cn(慧博投研资讯)
混合预训练数据表明模型预测在不同分布函数之间权衡
当上下文中的示例来自非常稀疏或非常密集的函数时,预测与仅在稀疏数据或仅在密集数据上预训练的模型几乎相同。然而,在中间情况下,混合预测与纯粹密集或纯粹稀疏预训练的Transformer模型的预测有所偏离。这表明预训练在混合上的模型不仅仅是选择一个函数类进行预测,而是在两者之间进行预测。
Transformer架构泛化能力的局限性
评估模型在预训练中见过的函数的极端版本(即频率远高或远低于预训练中通常见到的正弦函数)上的ICL表现。作者发现很少有证据表明模型具有超出分布的泛化能力。当函数与预训练数据明显相距甚远时,预测结果是不稳定的。然而,当函数与预训练数据足够接近时,模型可以很好地通过预训练的函数类别来逼近它。
提升泛化能力需要广泛覆盖
组合函数主要来自一个函数类别或另一个函数类别时,即接近预训练期间学到的函数类别时,上下文中的预测是合理的。然而,当两个函数在凸组合中都有显著贡献时,模型会做出不合理的预测,这些预测在上下文示例中无法很好地解释。这表明模型的模型选择能力受限于与预训练数据的接近程度,并且暗示了对函数空间的广泛覆盖对于泛化的上下文学习能力至关重要。
风险提示
本报告依据最新前沿论文进行解读评述,若有理解不当请以原始论文表述为准。且本报告为AI应用方法和框架介绍,并不作为有效投资方法建议,仅供参考
为了完善报告评分体系,请在看完报告后理性打个分,以便我们以后为您展示更优质的报告。
您也可以对自己点评与评分的报告在“我的云笔记”里进行复盘管理,方便您的研究与思考,培养良好的思维习惯。
正在加载,请稍候...