主要行业
点击进入可选择细分行业
【免责条款】
1. 用户直接或通过各类方式间接使用慧博投研资讯所提供的服务和数据的行为,都将被视作已无条件接受本声明所涉全部内容;若用户对本声明的任何条款有异议,请停止使用慧博投研资讯所提供的全部服务。
2. 用户需知,研报资料由网友上传,所有权归上传网友所有,慧博投研资讯仅提供存放服务,慧博投研资讯不保证资料内容的合法性、正确性、完整性、真实性或品质;
3. 任何单位或个人若认为慧博投研资讯所提供内容可能存在侵犯第三人著作权的情形,应该及时向慧博投研资讯提出书面权利通知,并提供身份证明、权属证明及详细侵权情况证明。慧博投研资讯将遵循"版权保护投诉指引"处理该信息内容;
4.本条款是本站免责条款的附则,其他更多内容详见本站底部《免责声明》;
多模态推动人工智能迈向AGI,底层技术日臻成熟
相比单模态,多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,更符合人类接收、处理和表达信息的方式,与人类交互方式更加灵活,表现的更加智能,能够执行更大范围的任务,有望成为人类智能助手,推动AI迈向AGI。http://www.hibor.com.cn【慧博投研资讯】就技术架构而言,多模态技术可拆解为编码、对齐、解码与微调等步骤,逐步挖掘多模态关联信息,输出目标结果。http://www.hibor.com.cn(慧博投研资讯)文生图CLIP模型为最先成熟的多模态技术,目前,多模态已不再局限于图文两层信息。例如,Meta-Transformer可同时理解并处理12种模态信息。
OpenAI谷歌开启多模态军备竞赛,Sora和Gemini各领风骚
海外龙头具备先发与技术优势,引领多模态大模型前进方向:1)OpenAI近期密集剧透GPT-5,相比GPT-4实现全面升级,重点突破语音输入和输入、图像输出以及最终的视频输入方向,或将实现真正多模态;此外,2月发布文生视频大模型Sora,能够根据文本指令或静态图像生成1分钟的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧,能够很好地模拟和理解现实世界。2)Google推出原生多模态大模型Gemini,可泛化并无缝地理解、操作和组合不同类别的信息;此外,2月推出Gemini 1.5 Pro,使用MoE架构首破100万极限上下文纪录,可单次处理包括1小时的视频、11小时的音频、超过3万行代码或超过70万个单词的代码库。3)Meta坚持大模型开源,建设开源生态巩固优势,已陆续开源ImageBind、AnyMAL等多模态大模型。国内大模型厂商有望沿着复制海外先进技术与发挥生态禀赋优势的两大路径,与海外大厂逐步缩小差距。
多模态提升大模型泛化能力,垂直领域应用场景广阔
强调技术与业务的融合以推动业务的数字化转型和智能化升级,才能够最大化的发挥大模型价值同时激励大模型创新升级,实现业务效率提升与技术创新的良性循环。多模态大模型的应用场景和价值正在不断扩展和提升。从语音识别、图像生成、自然语言理解、视频分析,到机器翻译、知识图谱等,多模态大模型都能够提供更丰富、更智能、更人性化的服务和体验。在强大泛化能力基础上,大模型可以在不同模态和场景之间实现知识的迁移和共享,将大模型的应用扩展到不同的领域和场景。
投资建议
我们看好具有算法、数据等先发优势的国产大模型厂商,同时多模态提升大模型泛化能力,多元信息环境下实现“多专多能”,在垂直领域具有广阔的应用场景和市场价值。建议关注:1)AI+多模态:万兴科技、中科创达、虹软科技、当虹科技、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技;2)AI+办公:金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息,用友网络;3)AI+教育/电商/医疗:科大讯飞、佳发教育、鸥玛软件、盛通股份、光云科技、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康、迪安诊断等。
风险提示
技术发展不及预期、产品落地不及预期、AI伦理风险等
为了完善报告评分体系,请在看完报告后理性打个分,以便我们以后为您展示更优质的报告。
您也可以对自己点评与评分的报告在“我的云笔记”里进行复盘管理,方便您的研究与思考,培养良好的思维习惯。
正在加载,请稍候...