热搜： irobot 佳士科技工业机器人机器人机器人产业联盟 ABB 机械手发那科机器人展览码垛机器人

可让照片人物“开口说话”，阿里巴巴研究团队推出 AI 框架“EMO”

日期：2024-03-04 来源：IT之家评论：0

标签： AI 科技创新

　　IT之家3月1日消息，阿里巴巴研究团队近日发布了一款名为“EMO（Emote Portrait Alive）”的AI框架，该框架号称可以用于“对口型”，只需要输入人物照片及音频，模型就能够让照片中的人物开口说出相关音频，支持中英韩等语言。

　　据悉，EMO基于英伟达的Audio2Video扩散模型打造，号称使用了超过250小时的专业视频进行训练，从而得到了相关AI框架。

　　IT之家注意到，研究团队分享了几段由EMO框架生成的DEMO演示片段，并在ArXiv上发布了模型的工作原理，感兴趣的小伙伴也可以访问GitHub查看项目。

▲图源研究人员发布的DEMO片段

　　据介绍，该框架工作过程分为两个主要阶段，研究人员首先利用参考网络（ReferenceNet）从参考图像和动作帧中提取特征，之后利用预训练的音频编码器处理声音并嵌入，再结合多帧噪声和面部区域掩码来生成视频，该框架还融合了两种注意机制和时间模块，以确保视频中角色身份的一致性和动作的自然流畅。

　　研究人员援引一系列实验结果，声称EMO不仅能够产生令人信服的说话视频，还能生成各种风格的歌唱视频，号称“显著优于目前的DreamTalk、Wav2Lip、SadTalker等竞品”。

声明：凡资讯来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与中国机器人网(www.robot-china.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多>相关资讯

0 条相关评论

推荐图文

推荐资讯

点击排行

• AI 网络蠕虫被曝光：能不断繁殖，发送垃圾邮件	• 报告称“AI 威胁工作论”被夸大：因部署维护成
• 英伟达 CEO 黄仁勋：通用人工智能预计最快五年	• 某视频号伪造刘德华声音，官方提醒避免落入 AI
• AI 替代人工编辑首战失败，维基百科不再视 CNET	• 美国 FDA 称马斯克旗下 Neuralink 动物实验存在
• 伦理学视域下的人工智能发展	• 针对 OpenAI CEO 阿尔特曼被罢免事件的调查已接
• Adobe 推出 AI 音乐生成工具，可根据文本生成音	• 2023 年度“中国科学十大进展”发布：AI 大模型

恰佩克奖	机器人高峰论坛	机气林	ITES深圳工业展	机器人研究院	库卡机器人	中国传动网
索比光伏网	数控机床市场网	国家标准化委员会