主要行业

　　「API降价」为应用落地带来肥沃土壤。大模型的智能水平随着参数量和训练数据量的显著增加而提升，但高昂的推理成本限制了其应用落地。自5月以来，幻方DeepSeek-V2引入创新性的MLA架构，将模型输入和输出价格分别降至1元和2元每百万token，受到广泛关注。随后，字节豆包在国内大模型市场率先降价，阿里、百度等云厂商以及智谱AI等初创公司也推出具有竞争力的低价模型。事实上，API价格下降是行业发展的必然趋势。得益于（i）模型架构的创新、（ii）推理引擎的推出、（iii）芯片性价比的提升以及（iv）参数量化的普及，大模型的推理成本已经取得了显著的优化，API价格的下降将促进应用生态的繁荣，吸引更多开发者，推动AI原生应用的落地。

　　「Attention机制」优化计算复杂度的源头。注意力机制（Attention）是大语言模型成功的关键技术，Transformer模型利用自注意力机制在序列间建立长距离依赖，提高了seq2seq任务性能。然而，标准自注意力机制的时间空间复杂度随序列长度N呈二次方增长，为此业界探索简化MHA（如MQA、GQA、MLA）或替代Attention机制（如Mamba、RWKV、RetNet）的方案来降低计算和内存需求。近期，以幻方DeepSeek提出的MLA和Mamba-2为代表的SSD架构让业界看到了对Attention机制进一步优化提效的巨大潜力。

　　「MoE架构」高效扩展模型参数量的秘诀。混合专家模型（MoE）架构通过集成多个专家模型和门控网络，实现模型参数的高效扩展和计算量的降低。当前研究聚焦于构建更异构的MoE，以自适应地调整计算成本，提高模型效率。幻方DeepSeek-V2和Snowflake的Arctic模型分别采用细粒度切割+共享专家独立机制和Dense-MoE混合架构，显著提升了参数效率。随着业界对MoE研究的深入，更加异构的MoE架构将逐渐被主流模型厂商采用，并融入其旗舰模型中。这将带来模型的推理成本更加动态分配，与之对应的单位成本模型能力也将变得更加强大。

　　投资建议：见正文

　　风险提示：AI技术迭代不及预期的风险，商业化落地不及预期的风险，政策支持不及预期风险，全球宏观经济风险。

我要报错

点击浏览报告原文

我要给此报告打分： (带*号为必填)

*我要评分：

当前已有2条点评记录，查看大家的点评记录

主要行业

热门行业

精选研报

财通证券-计算机行业投资策略周报：大模型推理成本降低，AI应用落地可期-240610