谷歌DeepMind展示GenRM技术：微调LLMs作为奖励模型，提升生成式AI推理能力

发布时间: 2024-9-12 23:04| 发布者: wangjing| 查看: 108231| 评论: 0

摘要: 9 月 3 日消息，谷歌 DeepMind 团队于 8 月 27 日在 arxiv 上发表论文，介绍展示了 GenRM 生成式验证器，创造性提出奖励模型，从而提升生成式 AI 推理能力。AI 行业内，目前提高大语言模型（LLMs）的主流做法就是 Be ...

9 月 3 日动静，谷歌 DeepMind 团队于 8 月 27 日正在 arxiv 上揭晓论文，引见展现了 GenRM 天生式考证器，缔造性提出嘉奖模子，从而提拔天生式 AI 推理才能。

AI 止业内乱，今朝进步年夜言语模子（LLMs）的支流做法便是 Best-of-N 形式，即由 LLM 天生的 N 个候选处理计划由考证器停止排序，并选出最好计划。

这类基于 LLM 的考证器凡是被锻炼成鉴别分类器去为处理计划挨分，但它们没法操纵预锻炼 LLMs 的文本天生才能。

DeepMind 团队为了克制那个范围性，测验考试利用下一个 token 猜测目的去锻炼考证器，同时停止考证息争决计划天生。

DeepMind 团队这类天生式考证器（GenRM），比拟较传统考证器，次要包罗以下长处：

无缝散成指令调解

撑持思想链推理

经由过程大都投票操纵分外的推理工夫计较

正在算法战小教数教推理使命中利用基于 Gemma 的考证器时，GenRM 的机能劣于鉴别式考证器战 LLM-as-a-Judge 考证器，正在利用 Best-of-N 处理成绩的百分比上进步了 16-64%。

据 Google DeepMind 报导，GenRM 相对分类嘉奖模子的边标记着野生智能嘉奖体系的枢纽演变，出格是正在其容量圆里，以避免新模子教成到的狡诈举动。那一前进凸起表白，火急需求完美嘉奖模子，令人工智能输出取社会义务尺度连结分歧。

1、转载或引用本网站内容须注明原网址，并标明本网站网址(https://www.wnceo.com)。

2、本网站部分投稿来源于“网友”，文章内容请反复甄别。若涉及侵权请移步网站底部问题反馈进行反映。

3、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

4、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

收藏分享邀请

上一篇：英伟达推全新视觉语音模型NVEagle，可以看图聊天下一篇：谷歌AI推出CardBench评估框架：含20个真实数据库，更全面评估基数估计模型

wangjing

0
粉丝
108231
阅读
0
回复

作者其他文章

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息

掌握市场风云动态

助力商场共赢至胜

改变你所看到的世界

资讯幻灯片

热门资讯

08-06

wangjing

智联招聘AI全托管招聘亮相WAIC：从简历筛选

7月29日，在2025世界人工智能大会（WAIC）现场，智联招聘展台展示的AI全托管招聘系统
08-06

wangjing

7月美国企业总共裁员超6.2万人：科技业首当

IT之家 8 月 1 日消息，据彭博社 7 月 31 日报道，裁员咨询机构 Challenger, Gray Ch
08-06

wangjing

库克罕见召开员工大会：AI不容错过，苹果能

库克凤凰网科技讯北京时间8月2日，据彭博社报道，苹果公司CEO蒂姆·库克(Tim Cook)在
08-06

wangjing

全球首批AI数字员工亮相，迎来规模化落地拐

AI数字员工元年开启，从亮相到规模化落地。今年，百度智能云的电话销售岗位来了一位“
08-06

wangjing

中国特供芯片恢复销售了？AMD CEO苏姿丰：

苏姿丰凤凰网科技讯北京时间8月6日，据彭博社报道，AMD周二警告称，恢复在中国销售芯
08-06

wangjing

以“疗愈生态”重构身心灵平衡，让自然与文

在快节奏的现代生活中，“焦虑”“疲惫”成为许多人共同的情绪标签，而“疗愈”正逐渐
05-30

wangjing

OpenAI新AI硬件大爆料郭明錤：可挂在脖子

艾维与奥特曼凤凰网科技讯北京时间5月22日，针对OpenAI与苹果传奇设计师乔纳森·艾维
05-30

wangjing

5000亿美元“星际之门”项目首站：甲骨文40

金融时报（5 月 24 日）发布博文，报道称甲骨文（Oracle）计划斥资约 400 亿美元，购
05-30

wangjing

不听人类指挥OpenAI模型拒绝关闭

新华社北京5月26日电英国《每日电讯报》25日报道，美国开放人工智能研究中心(OpenAI)
05-30

wangjing

扎克伯格难留AI人才：Llama团队近八成顶尖

扎克伯格与纳德拉凤凰网科技讯北京时间5月27日，据《商业内幕》报道，Meta开源大模型

热门专题

智联招聘AI全托管招聘亮相WAIC：从简历筛选

7月美国企业总共裁员超6.2万人：科技业首当

库克罕见召开员工大会：AI不容错过，苹果能

全球首批AI数字员工亮相，迎来规模化落地拐

中国特供芯片恢复销售了？AMD CEO苏姿丰：

以“疗愈生态”重构身心灵平衡，让自然与文

排行榜