价值无处不在,世界财经资讯媒体平台。
手机版
访问手机版
世界总裁网 首页 头条资讯 世界企业 新闻内容

腾讯混元推出AI数字人技术:一张照片配音频即可生成唱歌视频

发布时间: 2025-5-30 08:40| 发布者: wangjing| 查看: 6880| 评论: 0

摘要: 凤凰网科技讯 5月28日,腾讯混元团队联合腾讯音乐天琴实验室正式发布并开源语音数字人模型HunyuanVideo-Avatar。该技术仅需用户提供一张人物图像和一段音频文件,即可自动生成包含自然表情、精准唇形同步以及全身动 ...
 凤凰网科技讯 5月28日,腾讯混元团队结合腾讯音乐天琴尝试室正式公布并开源语音数字人模子HunyuanVideo-Avatar。该手艺仅需用户供给一张人物图象战一段音频文件,便可主动天生包罗天然心情、粗准唇形同步和满身行动的静态视频内乱容。

HunyuanVideo-Avatar基于腾讯混元视频年夜模子取MuseV手艺深度交融开辟。该模子具有壮大的多模态了解才能,可以主动辨认输进图象中的人物情况疑息和音频所启载的感情内乱容,进而天生下度婚配的视频片断。以实践使用场景为例,当用户上传一张海滩凶他女性照片共同抒怀音乐时,体系会自立了解“海边弹唱抒怀歌直”的场景设定,天生响应的音乐演出视频。

腾讯混元推出AI数字人手艺:一张照片配音频便可天生唱歌视频

正在手艺才能圆里,该模子打破了传统数字人手艺仅撑持头部驱动的范围性,片面撑持头肩、半身取满身三种景别形式。同时笼盖赛专朋克、2D动漫、中国火朱绘等多种艺术气势派头,和机械人、植物等多物种脚色驱动,并具有单人或多人互动场景的处置才能。

腾讯混元推出AI数字人手艺:一张照片配音频便可天生唱歌视频

HunyuanVideo-Avatar已正在腾讯音乐文娱团体多个中心产物中完成降天使用。正在QQ音乐仄台,用户支听“AI力宏”歌直时,AI天生的假造形象会正在播放界里及时同步演唱行动。酷狗音乐的少音频画本功用散成了AI假造人讲故事才能。齐平易近K歌则推出用户专属MV天生功用,撑持上传小我私家照片建造本性化唱歌视频。

手艺架构层里,该模子接纳多模态分散Transformer(MM-DiT)做为中心架构,经由过程脚色图象注进模块确保视频中人物的分歧性表示。音频感情模块可以从声音战图象中提与感情特性,天生详尽进微的脸部心情战肢体行动。针对多人场景,模子装备脸部感知音频适配器,操纵人脸掩码手艺完成多脚色的自力粗准驱动。

民圆暗示,HunyuanVideo-Avatar正在主体分歧性战音绘同步精确度圆里已到达业内乱抢先程度,逾越现有开源战闭源处理计划。正在绘里静态性战肢体天然度表示上,取其他支流闭源计划处于划一手艺火准。

今朝,HunyuanVideo-Avatar的单主体功用已正在腾讯混元民圆网站开放体验,用户可经由过程“模子广场-混元死视频-数字人-语音驱动”途径会见相干功用。体系当前撑持没有超越14秒的音频文件上传,后绝将逐渐开源更多初级功用模块。

腾讯此次开源办法将鞭策AI视频天生手艺的提高使用,为短视频创做、电商营销、告白建造等垂曲范畴供给低本钱的手艺处理计划。

  • 0
    粉丝
  • 6880
    阅读
  • 0
    回复

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息
掌握市场风云动态
助力商场共赢至胜
改变你所看到的世界
热门资讯
排行榜

关注我们: 微信订阅&APP下载

发现价值 创造价值

WNCEO.COM

世界总裁网版权所有 未经世界总裁网书面授权禁止复制或建立镜像内容

Email: service@wnceo.com 电话: 010-86398086 / 400-848-6648

地址: 北京市朝阳区广渠路36号首城国际大厦10层 邮编: 100010

Copyright  ©2008-2025 世界总裁网All rights reserved. 工信部许可备案号:京ICP备12045339号-2