• 热点研报
  • 精选研报
  • 知名分析师
  • 经济数据库
  • 个人中心
  • 用户管理
  • 我的收藏
  • 我要上传
  • 云文档管理
  • 我的云笔记
  • 天风证券-互联网行业OpenAIQ*:超越GPT4?强化学习与决策算法进步或带来Q*大模型能力的新突破,Agent能力落地有望加速-231123

    日期:2023-11-23 17:27:30 研报出处:天风证券
    股票名称:互联网行业 股票代码:
    研报栏目:港美研究 孔蓉,李泽宇  (PDF) 2 页 163 KB 分享者:王**梁
    请阅读并同意免责条款

    【免责条款】

    1. 用户直接或通过各类方式间接使用慧博投研资讯所提供的服务和数据的行为,都将被视作已无条件接受本声明所涉全部内容;若用户对本声明的任何条款有异议,请停止使用慧博投研资讯所提供的全部服务。

    2. 用户需知,研报资料由网友上传,所有权归上传网友所有,慧博投研资讯仅提供存放服务,慧博投研资讯不保证资料内容的合法性、正确性、完整性、真实性或品质;

    3. 任何单位或个人若认为慧博投研资讯所提供内容可能存在侵犯第三人著作权的情形,应该及时向慧博投研资讯提出书面权利通知,并提供身份证明、权属证明及详细侵权情况证明。慧博投研资讯将遵循"版权保护投诉指引"处理该信息内容;

    4.本条款是本站免责条款的附则,其他更多内容详见本站底部《免责声明》

    研究报告内容
    分享至:      

      我们认为大模型能力强化除了模型参数量、数据量之外,强化学习进步也是大模型能力突破重要的可能因素。http://www.hibor.com.cn【慧博投研资讯】

      强化学习此前即为ChatGPT关键能力突破的因素之一。http://www.hibor.com.cn(慧博投研资讯)如RLHF即为3.5能力迭代的关键来源之一。OpenAI首席科学家Ilya曾表示,AI领域,每一个令人惊叹的创新都源自于强化学习。

      OpenAI在多模型强化学习决策方面取得重大进展。这些进展将会推动Q学习算法在更多场景的应用,并促进相关决策系统的实现。

      Q学习算法或带来强化学习下智能体的决策能力持续提升。Q学习是一种基于强化学习的算法,用来在马尔科夫决策过程中求解最优控制问题。它的目标是通过学习最优策略,使智能体在未知环境中做出最佳选择。Q学习依据Bellman方程更新状态-动作对应的Q值,逼近最优值函数。智能体通过与环境交互,观察到新的状态和奖励,来更新执行各个动作的Q值。

      OpenAI近期持续引入强化学习和决策算法研究人员。23年7月份新引进的研究员Noam Brown,开展多步推理和多智能体互动方面的研究。NoamBrown此前参与发表的工作将语言模型与规划和强化学习算法结合,大幅提升了AI在复杂策略游戏中的表现,开发出第一批在德扑无上限游戏中击败顶级玩家的AI。这为OpenAI进一步增强强化学习系统的决策能力奠定了基础。

      OpenAI近期于5月份发布的研究也表明,调整训练方式和引入更大规模的监督数据,将会显著提升强化学习系统的数学推理能力。OpenAI引入针对过程的强化学习监督,进一步提升大模型在数据推理与计算的准确性。

      我们认为相关技术突破值得期待:我们此前深度解析Agent,认为首先任务拆解与反思能力对实现效果相对关键,其次为短期与长期记忆、浏览器与操作系统数据接入能力。多Agent为应用关键,AIAgent在面向科学研究、toB研发、个人助手场景方面的应用具备革命性。此外游戏场景下AIAgents对部分类型游戏NPC的替代可能会创造出全新的游戏模式。我们认为强化学习和决策算法进步下Agent实现路径有望创新。

      投资建议:我们认为强化学习与决策算法进步或带来Q大模型能力突破,GPT4+强化学习和决策算法,或能实现比GPT4更强的Agent能力。Agent有望百花齐放,在产业与场景逐渐落地,对于同等参数与同等算力消耗,更丰富的应用场景意味着推理需求的持续提升,我们持续看好微软、英伟达、AI+电商、AI+教育等。

      风险提示:技术进步不及预期,AI相关的监管风险,OpenAI公司治理

    我要报错
    点击浏览报告原文
    数据加工,数据接口
    我要给此报告打分: (带*号为必填)
    相关阅读
    2024-04-30 港美研究 作者:孔蓉,王梦恺,杨雨辰 4 页 分享者:yest******y_m
    2024-04-29 港美研究 作者:孔蓉,王梦恺,杨雨辰 8 页 分享者:zha****ex
    2024-04-24 港美研究 作者:孔蓉,李泽宇 2 页 分享者:cn2****27
    关闭
    如果觉得报告不错,扫描二维码可分享给好友哦!
     将此篇报告分享给好友阅读(微信朋友圈,微信好友)
    小提示:分享到朋友圈可获赠积分哦!
    操作方法:打开微信,点击底部“发现”,使用“扫一扫”即可分享到微信朋友圈或发送给微信好友。
    *我要评分:

    为了完善报告评分体系,请在看完报告后理性打个分,以便我们以后为您展示更优质的报告。

    您也可以对自己点评与评分的报告在“我的云笔记”里进行复盘管理,方便您的研究与思考,培养良好的思维习惯。

    当前终端的在线人数: 53021
    温馨提示
    扫一扫,慧博手机终端下载!

    正在加载,请稍候...