价值无处不在,世界财经资讯媒体平台。
手机版
访问手机版
世界总裁网 首页 人工智能 新闻内容

Scaling Laws 又失灵了?谷歌新研究:扩散模型不是越大越好

发布时间: 2024-4-8 20:28| 发布者: wangjing| 查看: 11041| 评论: 0

摘要: 作者 | Zicy近年来,模型规模呈现出愈来愈大的趋势,越来越多的人相信“力大砖飞”。OpenAI 虽然没有公布Sora的训练细节,但在Sora的技术报告中提到了:Our largest model, Sora, is capable of generating a minute ...
 

图片

做者 | Zicy

比年去,模子范围显现出越来越年夜的趋向,愈来愈多的人信赖“力年夜砖飞”。

OpenAI 固然出有宣布Sora的锻炼细节,但正在Sora的手艺陈述中提到了:

Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world. 我们最年夜的模子 Sora 可以天生一分钟的下保实视频。我们的成果表白,扩大视频天生模子是构建物理天下通用模仿器的一条有前程的路子。

OpenAI是scaling laws的坚决反对者。但是模子锻炼能否实的鼎力出奇观呢?

谷歌最新的研讨结论:

没有是!

谷歌研讨院战约翰霍普金斯年夜教正在最新的论文中指出:关于潜伏分散模子,模子纷歧定是越年夜越好。

论文链接:

https://arxiv.org/abs/2404.01367

Scaling laws 争议不断有

闭于Scaling laws(中文译文:缩放定律),去自Open AI 2020年的论文《Scaling Laws for Neural Language Models》,简朴道便是:模子的结果战范围巨细、数据散巨细、计较量巨细强相干,而取模子的详细构造(层数/深度/宽度)强相干。

论文链接

https://arxiv.org/pdf/2001.08361.pdf

Scaling Laws不只合用于言语模子,借合用于其他模态和跨模态的场景。缩放定律提出的意义是严重的,按照它研讨职员战开辟者能够更有用天设想模子架构,挑选适宜的模子巨细战数据散范围,以正在有限的计较资本下完成最好机能。

闭于缩放定律的研讨,先前的研讨次要集合正在年夜言语模子(LLM)上,闭于它的争议不断存正在:

OpenAI以为[1],每增长10倍的计较量,该当让数据散巨细增长为约1.8倍,模子参数目增长为约5.5倍。换句话道,模子参数目愈加的主要。

DeepMind以为[2],每增长10倍的计较量,该当让数据散巨细增长为约3.16倍,模子参数目也增长为约3.16倍。换句话道,数据散巨细战模子参数目一样主要。

先前,闭于LLM的缩放定律曾经被充实研讨,而Google的最新研讨则存眷图象天生模子:潜伏分散模子(Latent Diffusion Models, LDMs),从DALL·E到近来年夜水的Sora,我们皆能看到它的影子。可是谷歌的研讨结论是:

关于LDMs,正在计较资本较少时,假如增长10倍的计较量,该当让数据散巨细增长为10倍,而没有增长模子参数目。换句话道,数据散巨细愈加的主要。

Scaling Laws 又得灵了吗?


小模子的天生量量更好

做者设想了11个文本天生图象的LDM,其参数目从3900万到50亿没有等,以下图所示,第一止是模子参数目,第两止是此中Unet模子的第一层宽度,第三战四止别离是模子的GFLOPS(运转一次前背传布战反背传布所需的计较量)战破费(相对本初866M模子的破费,即假定866M模子的破费为1.00)


尽人皆知,模子的合计算量即是锻炼步调战GFLOPS的乘积,以是正在合计算量恒定的束缚下,越年夜的模子能获得的锻炼步调便越少,以是是模子年夜比力主要仍是锻炼步调多比力主要呢?


锻炼步调多比力主要!正在计较资本有限时,较小的模子(锻炼步调多)能够赛过较年夜的模子(锻炼步调少);模子巨细和锻炼步调的挑选要战计较资本适配。上面给出了一个定性的示例,能够看出小模子的结果更好一些。


但当锻炼步调恒按时,仍然是模子越年夜越好,上面给出了一个例子:锻炼步调恒为500k,差别体积模子的天生结果。


但年夜模子更善于图象细节

利用前里的text2image使命做为预锻炼使命,别离正在超分辩率使命战DreamBooth使命上做微调,发明正在超分辩率使命上,不异的计较量,模子越年夜,FID越低(天生量量越好),而超分辩率使命最磨练模子的细节天生才能。


上面是一个定性的例子


鄙人里DreamBooth上的表示证实了一样的结论,即年夜模子更善于图象细节。


差别体积模子的CFG相干性居然根本分歧

先简朴引见一下CFG:

CFG速度(Classifier-Free Guidance Rate)是一种正在分散模子中利用的手艺,正在文本到图象的天生使命中,它经由过程调解模子正在随机天生战文本前提天生之间的均衡去完成那一目的。

分散模子正在天生过程当中,凡是会从一个杂噪声形态开端,逐渐降噪曲至发生明晰的图象。正在那一过程当中,CFG手艺引进了一个分外的“指导”步调,经由过程该步调能够愈加激烈天鞭策天生的图象晨着给定文本形貌符合开的标的目的开展,CFG速度界说了这类指导的强度。


详细来讲,CFG修正了模子正在天生过程当中利用的文本疑息的权重。CFG速度为0意味着完整没有利用文本疑息,而较下的CFG速度意味着文本疑息对天生历程的影响更年夜。经由过程调解CFG速度,能够正在图文相干性取图象量量之间找到最好均衡。

下图是差别模子战采样步调下,最劣的CFG热力争


您会发明,统一止的色彩根本是分歧的,那阐明差别体积的模子受CFG的影响是根本分歧的,上面给出了一个定性的示例,从左到左的CFG逐步进步。


固然上面一止的团体量量比上里好,可是两止从左到左的团体变革趋向根本一样。以至做者正在蒸馏模子中停止一样的尝试,仍然能获得一样的结论。

服从取品格的探究

那项研讨无疑将对开辟更下效的图象天生AI体系发生深近影响,由于它提出了完成模子服从取量量之间最好均衡的指点性倡议。经由过程深化探究潜伏分散模子(LDM)的扩大特征及模子巨细取机能的干系,研讨职员得以粗准调解,以到达服从战量量的调和同一。

那些功效也取AI范畴的最新静态相符合,好比LLaMa、Falcon等小型言语模子正在多项使命中逾越年夜型敌手。那股鞭策开源、更玲珑、更下效模子的开展势头,旨正在鞭策AI手艺的平易近主化,使开辟者得以正在没有依靠宏大计较资本的状况下,于边沿装备上构建本性化的AI体系。

  • 0
    粉丝
  • 11041
    阅读
  • 0
    回复

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息
掌握市场风云动态
助力商场共赢至胜
改变你所看到的世界
热门资讯
排行榜

关注我们: 微信订阅&APP下载

发现价值 创造价值

WNCEO.COM

世界总裁网版权所有 未经世界总裁网书面授权禁止复制或建立镜像内容

Email: service@wnceo.com 电话: 010-86398086 / 400-848-6648

地址: 北京市朝阳区广渠路36号首城国际大厦10层 邮编: 100010

Copyright  ©2008-2024 世界总裁网All rights reserved. 工信部许可备案号:京ICP备12045339号-2