Pika? elevenlab? 我们也可以的!阿里巴巴智能计算研究所推出创新的表情视频生成技术EMO(附地址!)

资讯4个月前更新 花花
1,298 0 0

2024年2月28日,在人工智能领域取得了一项创新成就,阿里巴巴集团旗下的智能计算研究所最近发布了一种名为EMO的先进技术。这项技术是一个音频驱动的表情视频生成框架,能够根据单张图片和音频输入(比如说话或唱歌)生成具有丰富表情和多样头部姿势的肖像视频。

更引人注目的是,这些生成的视频可以根据输入音频的长度来调整时长,从而提供了前所未有的个性化体验。

地址:情绪 (humanaigc.github.io)

技术概览

EMO技术分为两个主要阶段:首先,通过所谓的“帧编码”阶段,利用ReferenceNet从参考图像和运动帧中提取特征。
Pika? elevenlab? 我们也可以的!阿里巴巴智能计算研究所推出创新的表情视频生成技术EMO(附地址!)

紧随其后的是“扩散过程”阶段,其中预训练的音频编码器处理音频嵌入,同时将面部区域掩模与多帧噪声结合起来,以指导面部图像的生成。该技术还采用了主干网络进行去噪操作,并在其中应用了参考注意力和音频注意力两种注意力机制,以保持角色身份并调节其动作。此外,还使用了时间模块来调整运动的速度和流畅性。
Pika? elevenlab? 我们也可以的!阿里巴巴智能计算研究所推出创新的表情视频生成技术EMO(附地址!)

多样化的应用场景

EMO技术的应用范围广泛,包括但不限于:

  • 唱歌视频生成:输入一张角色图像和一段声乐音频,如歌唱,EMO能够生成具有表情丰富、头部姿势多样的视频,同时在长时间内保持角色的身份识别。
    Pika? elevenlab? 我们也可以的!阿里巴巴智能计算研究所推出创新的表情视频生成技术EMO(附地址!)
  • 多语言和多肖像风格:支持各种语言的歌曲,为多样化的肖像风格赋予生命,直观识别音频中的音调变化,生成富有表情的动态虚拟形象。
    Pika? elevenlab? 我们也可以的!阿里巴巴智能计算研究所推出创新的表情视频生成技术EMO(附地址!)
  • 快节奏同步:即使面对快节奏的音乐,该技术也能确保虚拟形象的表情和动作与歌词完美同步。
    Pika? elevenlab? 我们也可以的!阿里巴巴智能计算研究所推出创新的表情视频生成技术EMO(附地址!)
  • 多元对话生成:不仅能处理唱歌音频,EMO还能适应不同语言的口语音频,为古代肖像、艺术画作以及3D模型和AI生成的内容注入生动的动态和真实感。
    Pika? elevenlab? 我们也可以的!阿里巴巴智能计算研究所推出创新的表情视频生成技术EMO(附地址!)
  • 跨演员表现:这项技术开辟了电影角色以不同语言和风格进行独白或表演的新可能性,扩大了角色描绘在多语言和多文化背景下的应用范围。
    Pika? elevenlab? 我们也可以的!阿里巴巴智能计算研究所推出创新的表情视频生成技术EMO(附地址!)

阿里巴巴智能计算研究所的这项技术,不仅展现了人工智能在创造性表达方面的巨大潜力,也为虚拟娱乐、教育、和多语言交流等领域开辟了新的可能性。随着技术的进一步发展,我们期待看到EMO带来的更多创新应用。

资讯、工具、教程、IT服务!

扫描以下二维码加群

告诉管理员您遇到的问题

我们会第一时间为您挑选优质教程和帮您解决问题

Pika? elevenlab? 我们也可以的!阿里巴巴智能计算研究所推出创新的表情视频生成技术EMO(附地址!)
© 版权声明

相关文章

分享