主要行业

　　1）原生多模态，30项学术基准取得最优。Gemini可以同时识别和理解文本、图像、音频、视频和代码五种信息。不同于市面上的图文拼接的多模态模型，Gemini是一个原生的多模态大模型，是将文本、代码、图片、视频、语音合在一起放进模型里训练而来的，因此能实现更均衡的多模态输出及任意模型切换。Gemini Ultra首次在MMLU（大规模多任务语言理解）测评上超过人类专家，在32个多模态基准中取得30个SOTA（当前最优效果），几乎全方位超越GPT-4。

　　2）更强大的图像/视频等多模态推理能力。Gemini具有复杂的多模态推理能力，可帮助理解复杂的书面和视觉信息。谷歌在宣传视频中展示了几种多模态能力：空间逻辑推理能力（识别太阳、地球、土星的位置关系）；时间线推理能力（拆解猜硬币魔术）；图文理解能力（根据展示的地图临时设计一个“猜国家”的游戏）；交错图文生成能力（根据展示的不同颜色毛线团，设计编制的物体，替换颜色后可重新设计）；图音画应用联动（根据画出的吉他播放吉他曲子，画出扬声器后音乐变为交响曲）

　　3）终端侧大模型应用落地：目前，谷歌旗下的聊天机器人Bard已经集成Gemini Pro的微调版本，在170多个国家和地区提供英语服务。另一方面，谷歌的Pixel 8 Pro成为首款搭载Gemini Nano的智能手机，推出录音总结、智能回复等AI功能，明年还将推出更多应用。安卓开发者还可以通过谷歌日前推出的AICore应用来使用Gemini Nano。

　　4）专用ASIC芯片进行训练：谷歌使用由TPUs v4和v5e在通过AI优化过的基础设施上对Gemini 1.0进行了大规模训练。在TPUs上，Gemini的运行速度明显快于早期规模更小、性能更弱的模型。

　　利好AI多模态应用和算力，产业未来发展可期

　　我们认为谷歌Gemini原生多模态大模型的发布，有望进一步催生AI多模态应用的需求，同时带来更大量的算力使用，建议关注：1）AI应用：教育（科大讯飞、佳发教育等）、企业服务（致远互联、彩讯股份、用友网络等）、文生图/视频（万兴科技、虹软科技等）、端侧应用（中科创达等）;2)AI算力：中科曙光、神州数码、润泽科技、浩瀚深度、海光信息、龙芯中科等。

　　建议关注

　　人工智能：金山办公、科大讯飞、中科创达、中科曙光、致远互联、奥比中光

　　数据要素：德生科技、通行宝、浩瀚深度、易华录、深桑达

　　基础工具链：普源精电、鼎阳科技、中望软件、索辰科技、华大九天、概伦电子

　　卫星互联网：创意信息、坤恒顺维、航天宏图、中科星图、霍莱沃、佳缘科技

　　工业软件：宝信软件、中控技术、容知日新、赛意信息、能科科技、鼎捷软件

　　网安与密码：启明星辰、安恒信息、深信服、三未信安、信安世纪

　　风险提示

　　1）宏观经济变化影响企业信息化支出；2）财政与货币政策低于预期；3）供应链波动加大，影响科技产业发展。

我要报错

点击浏览报告原文

我要给此报告打分： (带*号为必填)

*我要评分：

当前已有2条点评记录，查看大家的点评记录

主要行业

热门行业

精选研报

安信证券-计算机行业周报：谷歌Gemini大模型发布，原生多模态能力升级-231211