价值无处不在,世界财经资讯媒体平台。
手机版
访问手机版
世界总裁网 首页 人工智能 新闻内容

谷歌发布基础世界模型Genie 人工智能卷向“世界模型”

发布时间: 2024-2-27 19:04| 发布者: wangjing| 查看: 19086| 评论: 0

摘要: 与世界模型或世界模拟器相关的进展频频,OpenAI、Meta、谷歌入局。OpenAI和Meta之后,谷歌公布了世界模型领域相关进展。据谷歌官网,Genie是根据互联网视频训练的基础世界模型,可以从合成图像、照片、草图生成多种 ...
 取天下模子或天下模仿器相干的停顿几次,OpenAI、Meta、谷歌进局。

OpenAI战Meta以后,谷歌宣布了天下模子范畴相干停顿。据谷歌民网,Genie是按照互联网视频锻炼的根底天下模子,能够从分解图象、照片、草图天生多种行动可控的情况。

跟着谷歌进局,天下模子范畴变得愈加热烈,但谁能引发天下模子的风背,今朝借易下定论。Sora能否天下模子此前已惹起争议,阻挡者以为其视频天生方法取天下模子的果果猜测有很年夜差别。从Sora公布的视频看,下保实的同时,模仿物理纪律仿佛是缺点,今朝也借易以看出交互才能。谷歌Genie则正在交互性高低工夫,可揣度诞生成情况中的潜伏行动,但正在视频实在性战明晰度的层里,Genie借已显现出Sora般的程度。

专注2D仄台游戏等

据谷歌引见,已往几年,天生式野生智能模子能经由过程言语、图象以至视频天生内乱容,谷歌引进天生式野生智能新范式,即天生式交互式情况(Genie),经由过程单个图象提醒天生交互式、行动可控的情况。

Genie是一个110亿参数的根底天下模子,能从互联网视频中进修细粒度的掌握,不只能理解哪些部门是可控的,借能揣度诞生成的情况中的潜伏行动。据谷歌放出的论文,Genie由三部门构成,由一个简朴且可扩大的潜伏行动模子揣度每对帧之间的潜伏行动,由一个视频分词器将本初视频帧转换为离集标记(token),和一个静态模子,正在给定潜伏行动战已往帧token的状况下猜测下一帧。

从谷歌放出的视频看,输进一张动漫人物闯闭图片,能天生布景变更、人物持续腾跃且踩面精确的视频,行动具有相称的流利度战公道性。输进一张实在天下的图片,图片中的人物、植物也能做出公道的腾跃或挪动行动,但像素变得粗拙。

谷歌网站闭于Genie结果的动图截图

谷歌网站闭于Genie结果的动图截图

取Sora显现出去的下明晰度、下实在度比拟,Genie仿佛没有那末夸大绘里实在性,而是将重面放正在潜伏行动猜测上。天生下实在度的视频并不是今朝Genie的出力面。谷歌引见,Genie专注2D仄台游戏战机械人手艺的视频,但办法通用,应合用于任何范例范畴并可扩大至更年夜的互联网数据散。只需一张图象就可以创立齐新的交互情况,那为天生战进进假造天下的各类新途径开启了年夜门。

据理解,行动可控是今朝AI视频的一个易面,有创做者报告记者,PIKA等视频天生东西多是做视好动绘,看上来动了,但活动公道性另有很年夜改良空间,年夜幅度活动、人物对话较易完成。一段少视频要具有剧情,借连结正在统一个气势派头里,AI很易做到,Sora经由过程多镜头奇妙天躲避了那个成绩,但借不克不及确认处理了成绩。从那个角度看,AI了解物理天下并掌握物体行动是一个主要标的目的。

天下模子之争

天下模子被以为是通往AGI(通用野生智能)主要途径。远期取天下模子或天下模仿器相干的停顿几次,但各家的途径差别,谁能引发天下模子?

最早惹起存眷的Sora,OpenAI将其描述为做为天下模仿器的视频天生模子,并称经由过程扩展视频天生模子的范围,无望构建出能模仿物理天下的通用模仿器,但OpenA正在Sora手艺文档中并已具体引见手艺道理。今朝看,Sora极可能重塑AI视频业态,但可否了解实在物理天下纪律、能否具有天下模子的属性仍具争议。

谷歌公布根底天下模子Genie 野生智能卷背“天下模子”

一种代表性观点去自英伟达科教家Jim Fan,他指出,Sora是一个数据驱动的物理引擎,输进文本/图象并间接输出视频像素,是一个可进修的模仿器或天下模子。但Meta尾席野生智能科教家Yann LeCun其实不承认,他以为,Sora只是颠末锻炼能够天生像素,但假如是以这类方法去理解天下运做,那必定是个失利命题。

“按照提醒发生看起去最实在的影片其实不代表体系了解物理天下,天生取天下模子的果果猜测有很年夜差别。” Yann LeCun暗示,公道影片的空间十分年夜,体系只需发生一个样本便算胜利,而实在影片的公道持续空间小很多。

Sora视频的确显现出一些没有契合物理纪律的特性,比方,人物正在门路上止走,认真察看,会发明单腿呈现了两次诡同交换;巨浪消逝后,一个冲浪者借下下跃起;杯子摔碎的历程,液体先呈现正在桌里上,杯子才摔碎。有教者以为,天下模子需求对数据中出有的决议计划,经由过程推理得出,而Sora天生视频经由过程恍惚的提醒词指导,易以停止精确操控,出有精确天教到物理纪律。Yann LeCun暗示,更幻想的方法是发生持续的“笼统暗示”,消弭场景中取能够采纳操纵无闭的细节,那是JEPA(结合嵌进猜测架构)的要义,是猜测而非天生式。

Meta克日公布了V-JEPA。取谷歌Genie揣测天生情况中的潜伏行动差别,V-JEPA则是能天生视频中被遮挡部门,二者的配合面则正在于对“揣测”的夸大。

Meta称,那个物理天下模子的晚期示例善于检测战了解工具之间的具体交互。V-JEPA利用从大众数据中集合搜集的200万个视频锻炼,做为一种非天生模子,经由过程猜测笼统暗示空间中视频的缺得或屏障部门去停止进修,接纳自监视进修办法,利用已标识表记标帜数据停止预锻炼。取人类比拟,人对四周天下的理解年夜多经由过程察看,人的内乱部天下模子可猜测相干变乱的结果,V-JEPA经由过程自监视锻炼也能理解天下运做的常识。正在Meta展现的视频中,一个簿本被遮挡了部门,V-JEPA能对被遮挡部门做出多种猜测并天生视频。

巨子频有规划天下模子范畴的行动,使用层里也伎痒。有游戏从业者报告记者,AI画图的呈现此前已极年夜放慢其公司好术职员的事情服从,会商脚色进度的集会从一周一次放慢到一周两次,游戏及时革新的特性使AI东西借没法替换游戏引擎,但一些简朴的短剧编纂器能够被交换。一位影视企业手艺好术职员报告记者,固然借不克不及替换真拍或3D建造内乱容,但客户许多时分已期望正在电影中引进AI气势派头,构成奇迹。

  • 0
    粉丝
  • 19086
    阅读
  • 0
    回复

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息
掌握市场风云动态
助力商场共赢至胜
改变你所看到的世界
热门资讯
排行榜

关注我们: 微信订阅&APP下载

发现价值 创造价值

WNCEO.COM

世界总裁网版权所有 未经世界总裁网书面授权禁止复制或建立镜像内容

Email: service@wnceo.com 电话: 010-86398086 / 400-848-6648

地址: 北京市朝阳区广渠路36号首城国际大厦10层 邮编: 100010

Copyright  ©2008-2024 世界总裁网All rights reserved. 工信部许可备案号:京ICP备12045339号-2