首页>技术知识>电商资讯 2024 阿里云云栖大会:多模态与具身智能引领 AI 新风潮,接地气才是关键
25QI导航
2024-10-01
阿里云视频团队:一键给《甄嬛传》配英文字幕猎聘旗下的AI产品“多面·doris”,就是一位在24小时内,面试400多人的AI面试官。目前,猎聘AI面试有设定问题、智能问答等多种模式。最后,工作人员贴心提醒,数字人面试官比较适合一面、二面等人才的初筛环节。

人工智能界,多模态巨型模型日益显现其核心作用。踏入汇聚约60款模型提供商的“人工智能+”专区,可见参数竞赛不再是主导趋势。当代模型不仅在文本与图像处理上卓越表现,亦在音视频交互领域展现出显著成就,并预示着商业化的成长潜力。这正是多模态技术的优势所在,亦彰显了模型技术发展的新趋势。

多模态,不只是技术的炫耀

多模态超大规模模型虽技术前沿,实则正深刻革新日常。例如,在阿里的“全民舞王”活动中,用户可在10秒内简易创建短视频。此技术核心依托于阿里巴巴智能计算研究院,其人像动态视频生成技术EMO赋予了AI“五感”,令系统可解析并创作视频内容。这不仅展示了技术实力,也预示着商业应用的新篇章。

生数科技的“主体参照”技术赋予Vidu高精度识别视频主旨及视觉风格的capability。该技术已证实在游戏与XR行业中的优异性能。海外市场商业化成果显著,彰显了多模态技术在商业应用中巨大的发展潜力。

多模态,让AI更有“人情味”

多模态技术推动人工智能融入情感元素,不仅解析音视频内容,还具备新颖的内容创作能力。以音疯的AI音乐生成技术为例,它能连续制作时长达4分钟的统一风格音乐作品,赋予AI“情感”特质,使得其服务更加符合用户期望。

于“人工智能+”展区,游客可现场感受AI狼人杀之趣。该互动游戏已由巨人网络推广至抖音及哔哩哔哩平台,成为常态化的用户互动项目。AI非玩家角色NPC的引入,显著延长了用户互动时长逾十倍。这一成就既彰显了游戏的高人气,亦印证了多模态技术的创新进展。

多模态,让AI更懂你

多模态技术使AI突破文字与图像处理,进而深入音频、视频解析,显著提升其人性互动。例如,HiDream.ai的“秩象”AIGC平台,整合商品图像制作全流程,可定制满足个性需求的商品图像,缩短AI与用户之间的距离。

凭借通义实验室独立开发的算法,实现《甄嬛传》视频内容的全程自动化翻译。无需字幕支持,用户仅需上传视频,即可自动生成英文字幕。该技术大幅提升了AI对视频内容的理解力和对用户需求的精准把握。

多模态技术显著提升了人工智能的解析强度和行业洞察能力。以VAST的3D模型构建工具Tripo为例,其性能优越且易于操作。据了解,研发者在收集至关重要的3D数据过程中,投入了巨大努力以确保数据的精确性与细致度。此技术赋予AI更精确的商务感知力,有效满足了市场需要。

酷开工程师对本作者阐述,其模型旨在精确捕捉用户检索意图。以鹿晗为例,当用户搜索相关剧集时,系统应呈现其全方位图片。此技术增强人工智能的商业洞察力,有效优化了对用户期望的响应。

多模态,让AI更有“未来感”

多模态技术显著提升了人工智能的预见性。阿里推出的前沿视频生成算法融合了图像文本转换、音频视频等多模态技术,进一步增强了AI的预见性,使其更好地适应未来服务需求。

巨人网络针对抖音及B站平台旺季互动观众特别策划的AI狼人杀版活动,全天候、不间断的在线NPC角色交互极大地增强了巨人公司季节活动期间的用户参与时间,增幅超十倍。

多模态技术显著提升人工智能的“创新实力”,显著改善了AI在优化用户体验方面的性能。

所推广的创新技术显著提升了人工智能对市场的吸引力,此过程中亦强化了其满足用户需求的服务效能。

请您阐述对多模态技术可能带来的变革性影响的观点。热切期望在评论区域深度交流。此外,衷心邀请您点赞并转发,携手探寻人工智能前行之路!

显示全部内容...