• 热点研报
  • 精选研报
  • 知名分析师
  • 经济数据库
  • 个人中心
  • 用户管理
  • 我的收藏
  • 我要上传
  • 云文档管理
  • 我的云笔记
  • 天风证券-通信行业专题研究:OpenAI o1占领后训练扩展律前沿,从快速识别走向深度思考-240924

    日期:2024-09-24 18:09:44 研报出处:天风证券
    行业名称:通信行业
    研报栏目:行业分析 唐海清,王奕红,余芳沁  (PDF) 9 页 689 KB 分享者:xia****14 推荐评级:强于大市
    请阅读并同意免责条款

    【免责条款】

    1. 用户直接或通过各类方式间接使用慧博投研资讯所提供的服务和数据的行为,都将被视作已无条件接受本声明所涉全部内容;若用户对本声明的任何条款有异议,请停止使用慧博投研资讯所提供的全部服务。

    2. 用户需知,研报资料由网友上传,所有权归上传网友所有,慧博投研资讯仅提供存放服务,慧博投研资讯不保证资料内容的合法性、正确性、完整性、真实性或品质;

    3. 任何单位或个人若认为慧博投研资讯所提供内容可能存在侵犯第三人著作权的情形,应该及时向慧博投研资讯提出书面权利通知,并提供身份证明、权属证明及详细侵权情况证明。慧博投研资讯将遵循"版权保护投诉指引"处理该信息内容;

    4.本条款是本站免责条款的附则,其他更多内容详见本站底部《免责声明》

    研究报告内容
    分享至:      

      o1模型通过强化学习训练和产生思维链,能在做出响应前花更多时间思考问题

      9月12日,OpenAI发布一系列新大语言模型o1,经过强化学习(Reinforcement Learning)训练,可以执行复杂推理,该模型可以产生一个长程思维链(Chain of Thought),在做出响应前花更多时间思考问题。http://www.hibor.com.cn【慧博投研资讯】

      新模型包括o1-preview和o1-mini两种版本,其中o1-mini更快、更具成本效益,适用于需要推理但不需要广泛知识的应用程序

      o1-mini是一个较小的模型,针对预训练期间的STEM推理进行了优化。http://www.hibor.com.cn(慧博投研资讯)速度方面,在单词推理问题回答中o1-mini找到答案的速度比o1-preview大约快了3~5倍;成本方面,OpenAI向第五梯队API用户开放的o1-mini成本端比o1-preview便宜80%。

      o1通用性不及GPT-4o,高推理能力伴随高成本

      作为早期模型,o1并不具备浏览网页、上传文件和图像等功能,通用性尚不及GPT-4o。但相较于GPT-4o多模态、反应快等特点,o1-preview更加注重推理能力,输入、输出tokens成本分别是GPT-4o的3、4倍。

      o1在数理化复杂问题推理中的性能明显优于GPT-4o,在物理和生物学专业知识基准上的表现超越人类博士

      o1在竞争性编程问题(Codeforces)中拿到89%的百分位,GPT-4o仅为11%;在国际数学奥林匹克竞赛(IMO)的资格考试中,o1解答正确率为83%,而GPT-4o正确率仅为13%;在安全方面,o1在越狱测试中的分数高达84,而GPT-4o的得分仅为22分。

      后训练扩展律(Post-Training Scaling Law)显现,或将引发业界对算力重新分配、后训练能力的思考

      o1模型的亮点在于其性能会随着强化学习时间(训练时间的计算量)和思考时间(测试时间的计算量)的增加而不断提升,扩展这种方法的限制与传统LLM预训练方法(通过增加参数量和数据量)的限制有着很大不同,后训练方法的重要性或将引发业界对算力分配、后训练能力的思考。

      从快速反应走向深度思考,拓宽行业应用场景

      o1在训练过程中能够使其思维链进行高效思考,模拟了人类在面对复杂问题时的思考过程,这预示着AI除了在快系统中可被应用(人脸识别等),在慢系统中的可用型或将得到提升。

      快慢系统结合或将成为新的AI发展战略,OpenAI、Google占据前沿阵地

      Google DeepMind在此前论文中提出测试时的计算比扩展模型参数更有效;AlphaGeometry模型在国际数学奥林匹克(IMO)几何问题的基准测试中解决了25个问题(总共30个问题),AlphaGeometry由神经语言模型和符号推导引擎组成,将快慢系统结合,一个系统提供快速、直观的想法,另一个系统则提供更深思熟虑、更理性的决策。

      风险提示:AI应用发展不及预期风险;海外大厂投资不及预期风险;中美摩擦升级风险。

      

    我要报错
    点击浏览报告原文
    数据加工,数据接口
    我要给此报告打分: (带*号为必填)
    *我要评分:
    暂无评价
    相关阅读
    2024-09-22 行业分析 作者:唐海清,王奕红,康志毅 11 页 分享者:yan****in 强于大市
    2024-09-18 行业分析 作者:唐海清,王奕红,康志毅 12 页 分享者:wil****on 强于大市
    2024-09-08 行业分析 作者:唐海清,王奕红,康志毅 11 页 分享者:yiy****hi 强于大市
    2024-09-01 行业分析 作者:唐海清,王奕红,康志毅 10 页 分享者:fly****el 强于大市
    2024-08-27 行业分析 作者:唐海清,王奕红,康志毅 11 页 分享者:莫**i 强于大市
    关闭
    如果觉得报告不错,扫描二维码可分享给好友哦!
     将此篇报告分享给好友阅读(微信朋友圈,微信好友)
    小提示:分享到朋友圈可获赠积分哦!
    操作方法:打开微信,点击底部“发现”,使用“扫一扫”即可分享到微信朋友圈或发送给微信好友。
    *我要评分:

    为了完善报告评分体系,请在看完报告后理性打个分,以便我们以后为您展示更优质的报告。

    您也可以对自己点评与评分的报告在“我的云笔记”里进行复盘管理,方便您的研究与思考,培养良好的思维习惯。

    当前终端的在线人数: 68886
    温馨提示
    扫一扫,慧博手机终端下载!

    正在加载,请稍候...