主要行业

　　文生视频Pika 1.0发布，AI影像热潮再起。11月29日，AI文生视频软件Pika 1.0版本发布，热度迅速席卷全网。Pika成立于今年7月，Pika 1.0是其第一个正式推出的版本，能够根据文字自动生成和编辑3D动画、动漫、卡通和电影，还能够支持对于视频的实时编辑和修改。Pika的创始人是两位斯坦福大学人工智能实验室的前博士生郭文景和Chenlin Meng，目前Pika已融资3轮，估值超过2亿美元。到现在为止Pika已经有了50万用户。

　　近期AI+视频方向更新频发。11月以来，海外在AI生成视频领域的动作进展较快。11月3日，Runway发布Gen-2模型更新，把生成的视频清晰度提升到了4K精度，改进了结果的保真度和一致性。并随后在11月20日上线了运动笔刷功能，只需对着图像任意位置一刷，就能让静止的一切物体动起来；11月16日，Meta发布了Emu Video，能够基于文本和图像输入生成视频剪辑；11月18日，字节跳动发布PixelDance，在生成视频的动态性上得到了显著提升；11月21日，Stability AI发布了自家的生成视频模型Stable Video Diffusion，支持文本到视频、图像到视频生成，并且还支持物体从单一视角到多视角的转化，也就是3D合成。

　　大语言模型技术路径已收敛，而视频生成模型仍处于探索期。在OpenAI的技术方向引领下，目前语言模型的技术路径基本就是GPT这一条路。而多模态技术方面，目前没有一家公司处于绝对领先地位，技术路径仍存在探索的可能。AI视频的生成面临流畅性、帧生成逻辑、协调性等等问题，模型需要生成每一帧发生的事情，而用户的prompt往往非常简略，无法像图像生成一样为每一帧提供详细的描述，种种原因都导致了目前AI视频生成技术仍无法做到非常完美，技术路线也多种多样。

　　语言模型是对物理世界的抽象描述，多模态数据能够更真实反映物理世界属性，能感知真实物理世界的多模态模型应用前景更加广阔。语言作为一种精炼的表述载体，可以对物理世界进行抽象描述，例如文生图和文生视频中，用户都可以用简短的一句话或者几句话来对想要生成的图像或视频进行描述。但是从承载的信息量来讲，语言所能承载的信息是远远不及图像和视频的。而多模态的数据例如图像、视频、音频、振动等信息，则更加能反映出物理世界的真实属性，是真正对于物理世界状态的感知，与人类感知世界的方式更加接近。我们认为，未来的多模态模型将能够真正实现对世界状态的完整感知，也因此能具备更多的应用场景。

　　多模态是生成式AI下一步重点方向，百花齐放的应用场景有望探索。现阶段大语言模型的竞争已经非常激烈，从技术突破的角度来看，我们认为，下一阶段的重点攻克方向必然会是多模态技术。能够真正处理和应用好多模态AI能力，才能真正打通物理世界和数字世界的障壁，用最基础的感知世界能力直接生成操作，实现与物理世界最自然的交互。因此，基于多模态的应用场景仍需不断探索，AI视频生成仅仅是多模态技术路径中的一个小方向，多模态领域的ChatGPT时刻还未到来。

　　投资建议与投资标的

　　我们认为，在多模态模型应用场景上具备良好布局和卡位的公司值得关注。建议关注海康威视(002415，买入)（电子组覆盖）、大华股份(002236，买入)（电子组覆盖）、萤石网络(688475，未评级)（电子组覆盖）、中科创达(300496，买入)、虹软科技(688088，未评级)、科大讯飞(002230，买入)、万兴科技(300624，未评级)等公司

　　风险提示

　　技术落地不及预期；政策监管风险

我要报错

点击浏览报告原文

我要给此报告打分： (带*号为必填)

*我要评分：

当前已有1条点评记录，查看大家的点评记录

主要行业

热门行业

精选研报

东方证券-计算机行业：Pika 1.0再掀AI视频热潮，多模态技术路径仍有探索空间-231206