首页>技术知识>电商资讯 2024 阿里云云栖大会：多模态与具身智能引领 AI 新风潮，接地气才是关键

25QI导航

2024-10-01

阿里云视频团队：一键给《甄嬛传》配英文字幕猎聘旗下的AI产品“多面·doris”，就是一位在24小时内，面试400多人的AI面试官。目前，猎聘AI面试有设定问题、智能问答等多种模式。最后，工作人员贴心提醒，数字人面试官比较适合一面、二面等人才的初筛环节。

于人工智能界，多模态巨型模型日益显现其核心作用。踏入汇聚约60款模型提供商的“人工智能+”专区，可见参数竞赛不再是主导趋势。当代模型不仅在文本与图像处理上卓越表现，亦在音视频交互领域展现出显著成就，并预示着商业化的成长潜力。这正是多模态技术的优势所在，亦彰显了模型技术发展的新趋势。

多模态，不只是技术的炫耀

多模态超大规模模型虽技术前沿，实则正深刻革新日常。例如，在阿里的“全民舞王”活动中，用户可在10秒内简易创建短视频。此技术核心依托于阿里巴巴智能计算研究院，其人像动态视频生成技术EMO赋予了AI“五感”，令系统可解析并创作视频内容。这不仅展示了技术实力，也预示着商业应用的新篇章。

生数科技的“主体参照”技术赋予Vidu高精度识别视频主旨及视觉风格的capability。该技术已证实在游戏与XR行业中的优异性能。海外市场商业化成果显著，彰显了多模态技术在商业应用中巨大的发展潜力。

多模态，让AI更有“人情味”

多模态技术推动人工智能融入情感元素，不仅解析音视频内容，还具备新颖的内容创作能力。以音疯的AI音乐生成技术为例，它能连续制作时长达4分钟的统一风格音乐作品，赋予AI“情感”特质，使得其服务更加符合用户期望。

于“人工智能+”展区，游客可现场感受AI狼人杀之趣。该互动游戏已由巨人网络推广至抖音及哔哩哔哩平台，成为常态化的用户互动项目。AI非玩家角色NPC的引入，显著延长了用户互动时长逾十倍。这一成就既彰显了游戏的高人气，亦印证了多模态技术的创新进展。

多模态，让AI更懂你

多模态技术使AI突破文字与图像处理，进而深入音频、视频解析，显著提升其人性互动。例如，HiDream.ai的“秩象”AIGC平台，整合商品图像制作全流程，可定制满足个性需求的商品图像，缩短AI与用户之间的距离。

凭借通义实验室独立开发的算法，实现《甄嬛传》视频内容的全程自动化翻译。无需字幕支持，用户仅需上传视频，即可自动生成英文字幕。该技术大幅提升了AI对视频内容的理解力和对用户需求的精准把握。

多模态技术显著提升了人工智能的解析强度和行业洞察能力。以VAST的3D模型构建工具Tripo为例，其性能优越且易于操作。据了解，研发者在收集至关重要的3D数据过程中，投入了巨大努力以确保数据的精确性与细致度。此技术赋予AI更精确的商务感知力，有效满足了市场需要。

酷开工程师对本作者阐述，其模型旨在精确捕捉用户检索意图。以鹿晗为例，当用户搜索相关剧集时，系统应呈现其全方位图片。此技术增强人工智能的商业洞察力，有效优化了对用户期望的响应。

多模态，让AI更有“未来感”

多模态技术显著提升了人工智能的预见性。阿里推出的前沿视频生成算法融合了图像文本转换、音频视频等多模态技术，进一步增强了AI的预见性，使其更好地适应未来服务需求。

巨人网络针对抖音及B站平台旺季互动观众特别策划的AI狼人杀版活动，全天候、不间断的在线NPC角色交互极大地增强了巨人公司季节活动期间的用户参与时间，增幅超十倍。

多模态技术显著提升人工智能的“创新实力”，显著改善了AI在优化用户体验方面的性能。

所推广的创新技术显著提升了人工智能对市场的吸引力，此过程中亦强化了其满足用户需求的服务效能。

请您阐述对多模态技术可能带来的变革性影响的观点。热切期望在评论区域深度交流。此外，衷心邀请您点赞并转发，携手探寻人工智能前行之路！

显示全部内容...

电商资讯

2024 阿里云云栖大会：多模态与具身智能引领 AI 新风潮，接地气才是关键