Scaling Laws 又失灵了？谷歌新研究：扩散模型不是越大越好

发布时间: 2024-4-8 20:28| 发布者: wangjing| 查看: 35724| 评论: 0

摘要: 作者 | Zicy近年来，模型规模呈现出愈来愈大的趋势，越来越多的人相信“力大砖飞”。OpenAI 虽然没有公布Sora的训练细节，但在Sora的技术报告中提到了：Our largest model, Sora, is capable of generating a minute ...

做者 | Zicy

比年去，模子范围显现出越来越年夜的趋向，愈来愈多的人信赖“力年夜砖飞”。

OpenAI 固然出有宣布Sora的锻炼细节，但正在Sora的手艺陈述中提到了：

Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world. 我们最年夜的模子 Sora 可以天生一分钟的下保实视频。我们的成果表白，扩大视频天生模子是构建物理天下通用模仿器的一条有前程的路子。

OpenAI是scaling laws的坚决反对者。但是模子锻炼能否实的鼎力出奇观呢？

谷歌最新的研讨结论：

没有是！

谷歌研讨院战约翰霍普金斯年夜教正在最新的论文中指出：关于潜伏分散模子，模子纷歧定是越年夜越好。

论文链接：

https://arxiv.org/abs/2404.01367

Scaling laws 争议不断有

闭于Scaling laws（中文译文：缩放定律），去自Open AI 2020年的论文《Scaling Laws for Neural Language Models》，简朴道便是：模子的结果战范围巨细、数据散巨细、计较量巨细强相干，而取模子的详细构造(层数/深度/宽度)强相干。

论文链接：

https://arxiv.org/pdf/2001.08361.pdf

Scaling Laws不只合用于言语模子，借合用于其他模态和跨模态的场景。缩放定律提出的意义是严重的，按照它研讨职员战开辟者能够更有用天设想模子架构，挑选适宜的模子巨细战数据散范围，以正在有限的计较资本下完成最好机能。

闭于缩放定律的研讨，先前的研讨次要集合正在年夜言语模子（LLM）上，闭于它的争议不断存正在：

OpenAI以为^[1]，每增长10倍的计较量，该当让数据散巨细增长为约1.8倍，模子参数目增长为约5.5倍。换句话道，模子参数目愈加的主要。

DeepMind以为^[2]，每增长10倍的计较量，该当让数据散巨细增长为约3.16倍，模子参数目也增长为约3.16倍。换句话道，数据散巨细战模子参数目一样主要。

先前，闭于LLM的缩放定律曾经被充实研讨，而Google的最新研讨则存眷图象天生模子：潜伏分散模子（Latent Diffusion Models, LDMs），从DALL·E到近来年夜水的Sora，我们皆能看到它的影子。可是谷歌的研讨结论是：

关于LDMs，正在计较资本较少时，假如增长10倍的计较量，该当让数据散巨细增长为10倍，而没有增长模子参数目。换句话道，数据散巨细愈加的主要。

Scaling Laws 又得灵了吗？

小模子的天生量量更好

做者设想了11个文本天生图象的LDM，其参数目从3900万到50亿没有等，以下图所示，第一止是模子参数目，第两止是此中Unet模子的第一层宽度，第三战四止别离是模子的GFLOPS（运转一次前背传布战反背传布所需的计较量）战破费（相对本初866M模子的破费，即假定866M模子的破费为1.00）

尽人皆知，模子的合计算量即是锻炼步调战GFLOPS的乘积，以是正在合计算量恒定的束缚下，越年夜的模子能获得的锻炼步调便越少，以是是模子年夜比力主要仍是锻炼步调多比力主要呢？

锻炼步调多比力主要！正在计较资本有限时，较小的模子（锻炼步调多）能够赛过较年夜的模子（锻炼步调少）；模子巨细和锻炼步调的挑选要战计较资本适配。上面给出了一个定性的示例，能够看出小模子的结果更好一些。

但当锻炼步调恒按时，仍然是模子越年夜越好，上面给出了一个例子：锻炼步调恒为500k，差别体积模子的天生结果。

但年夜模子更善于图象细节

利用前里的text2image使命做为预锻炼使命，别离正在超分辩率使命战DreamBooth使命上做微调，发明正在超分辩率使命上，不异的计较量，模子越年夜，FID越低（天生量量越好），而超分辩率使命最磨练模子的细节天生才能。

上面是一个定性的例子

鄙人里DreamBooth上的表示证实了一样的结论，即年夜模子更善于图象细节。

差别体积模子的CFG相干性居然根本分歧

先简朴引见一下CFG：

CFG速度（Classifier-Free Guidance Rate）是一种正在分散模子中利用的手艺，正在文本到图象的天生使命中，它经由过程调解模子正在随机天生战文本前提天生之间的均衡去完成那一目的。

分散模子正在天生过程当中，凡是会从一个杂噪声形态开端，逐渐降噪曲至发生明晰的图象。正在那一过程当中，CFG手艺引进了一个分外的“指导”步调，经由过程该步调能够愈加激烈天鞭策天生的图象晨着给定文本形貌符合开的标的目的开展，CFG速度界说了这类指导的强度。

详细来讲，CFG修正了模子正在天生过程当中利用的文本疑息的权重。CFG速度为0意味着完整没有利用文本疑息，而较下的CFG速度意味着文本疑息对天生历程的影响更年夜。经由过程调解CFG速度，能够正在图文相干性取图象量量之间找到最好均衡。

下图是差别模子战采样步调下，最劣的CFG热力争

您会发明，统一止的色彩根本是分歧的，那阐明差别体积的模子受CFG的影响是根本分歧的，上面给出了一个定性的示例，从左到左的CFG逐步进步。

固然上面一止的团体量量比上里好，可是两止从左到左的团体变革趋向根本一样。以至做者正在蒸馏模子中停止一样的尝试，仍然能获得一样的结论。

服从取品格的探究

那项研讨无疑将对开辟更下效的图象天生AI体系发生深近影响，由于它提出了完成模子服从取量量之间最好均衡的指点性倡议。经由过程深化探究潜伏分散模子（LDM）的扩大特征及模子巨细取机能的干系，研讨职员得以粗准调解，以到达服从战量量的调和同一。

那些功效也取AI范畴的最新静态相符合，好比LLaMa、Falcon等小型言语模子正在多项使命中逾越年夜型敌手。那股鞭策开源、更玲珑、更下效模子的开展势头，旨正在鞭策AI手艺的平易近主化，使开辟者得以正在没有依靠宏大计较资本的状况下，于边沿装备上构建本性化的AI体系。

1、转载或引用本网站内容须注明原网址，并标明本网站网址(https://www.wnceo.com)。

2、本网站部分投稿来源于“网友”，文章内容请反复甄别。若涉及侵权请移步网站底部问题反馈进行反映。

3、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

4、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

收藏分享邀请

上一篇：谷歌要收费了？人工智能搜索正在改变一切下一篇：靠AI共情人类，这家公司刚融了3个亿

wangjing

0
粉丝
35724
阅读
0
回复

作者其他文章

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息

掌握市场风云动态

助力商场共赢至胜

改变你所看到的世界

资讯幻灯片

热门资讯

05-30

wangjing

OpenAI新AI硬件大爆料郭明錤：可挂在脖子

艾维与奥特曼凤凰网科技讯北京时间5月22日，针对OpenAI与苹果传奇设计师乔纳森·艾维
05-30

wangjing

5000亿美元“星际之门”项目首站：甲骨文40

金融时报（5 月 24 日）发布博文，报道称甲骨文（Oracle）计划斥资约 400 亿美元，购
05-30

wangjing

不听人类指挥OpenAI模型拒绝关闭

新华社北京5月26日电英国《每日电讯报》25日报道，美国开放人工智能研究中心(OpenAI)
05-30

wangjing

扎克伯格难留AI人才：Llama团队近八成顶尖

扎克伯格与纳德拉凤凰网科技讯北京时间5月27日，据《商业内幕》报道，Meta开源大模型
05-30

wangjing

红帽联手谷歌、NVIDIA启动llm-d开源项目，

全球开源解决方案领导者红帽公司近日宣布启动革命性开源项目llm-d，专门应对生成式AI
05-30

wangjing

一场比赛催生5000万订单：机器人产业进入“

摘要：这场机器人格斗大赛的意义，远不止于一场表演。它像一面镜子，映照出人形机器人
05-30

wangjing

谷歌CEO皮查伊回应OpenAI联手艾维：他是独

皮查伊凤凰网科技讯北京时间5月28日，据《商业内幕》报道，OpenAI上周通过近65亿美元
05-30

wangjing

腾讯混元推出AI数字人技术：一张照片配音频

凤凰网科技讯 5月28日，腾讯混元团队联合腾讯音乐天琴实验室正式发布并开源语音数字人
05-30

wangjing

谷歌25年磨一剑，苹果AI掉队有何奇怪？

谷歌创始人佩奇在25年前就开始AI布局凤凰网科技讯北京时间5月29日，《商业内幕》周三
05-30

wangjing

全球首款生成式人形机器人运动大模型发布：

今日上午，国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院，正式发布了

热门专题

OpenAI新AI硬件大爆料郭明錤：可挂在脖子

5000亿美元“星际之门”项目首站：甲骨文40

不听人类指挥OpenAI模型拒绝关闭

扎克伯格难留AI人才：Llama团队近八成顶尖

红帽联手谷歌、NVIDIA启动llm-d开源项目，

一场比赛催生5000万订单：机器人产业进入“

排行榜