主要行业

　　Yadlowsky et al.在《 Pretraining Data Mixtures Enable Narrow Model SelectionCapabilities in Transformer Models》中给出了当前的ICL（上下文学习）底层方法上的局限性。他们发现有强有力的证据表明模型可以在上下文学习中在预训练的函数类之间进行模型选择，但只有有限的证据表明模型的上下文学习行为能够推广到预训练数据之外。

　　混合预训练数据表明模型预测在不同分布函数之间权衡

　　当上下文中的示例来自非常稀疏或非常密集的函数时，预测与仅在稀疏数据或仅在密集数据上预训练的模型几乎相同。然而，在中间情况下，混合预测与纯粹密集或纯粹稀疏预训练的Transformer模型的预测有所偏离。这表明预训练在混合上的模型不仅仅是选择一个函数类进行预测，而是在两者之间进行预测。

　　Transformer架构泛化能力的局限性

　　评估模型在预训练中见过的函数的极端版本（即频率远高或远低于预训练中通常见到的正弦函数）上的ICL表现。作者发现很少有证据表明模型具有超出分布的泛化能力。当函数与预训练数据明显相距甚远时，预测结果是不稳定的。然而，当函数与预训练数据足够接近时，模型可以很好地通过预训练的函数类别来逼近它。

　　提升泛化能力需要广泛覆盖

　　组合函数主要来自一个函数类别或另一个函数类别时，即接近预训练期间学到的函数类别时，上下文中的预测是合理的。然而，当两个函数在凸组合中都有显著贡献时，模型会做出不合理的预测，这些预测在上下文示例中无法很好地解释。这表明模型的模型选择能力受限于与预训练数据的接近程度，并且暗示了对函数空间的广泛覆盖对于泛化的上下文学习能力至关重要。

　　风险提示

　　本报告依据最新前沿论文进行解读评述，若有理解不当请以原始论文表述为准。且本报告为AI应用方法和框架介绍，并不作为有效投资方法建议，仅供参考

我要报错

点击浏览报告原文

我要给此报告打分： (带*号为必填)

*我要评分：

当前已有2条点评记录，查看大家的点评记录

主要行业

热门行业

精选研报

浙商证券-AI前沿跟踪系列（八 ）：智能配置点评，Transformer泛化能力局限性实验-231203

浙商证券-AI前沿跟踪系列（八）：智能配置点评，Transformer泛化能力局限性实验-231203