价值无处不在,世界财经资讯媒体平台。
手机版
访问手机版
世界总裁网 首页 头条资讯 科技世界 新闻内容

谷歌DeepMind展示GenRM技术:微调LLMs作为奖励模型,提升生成式AI推理能力

发布时间: 2024-9-12 23:04| 发布者: wangjing| 查看: 80146| 评论: 0

摘要: 9 月 3 日消息,谷歌 DeepMind 团队于 8 月 27 日在 arxiv 上发表论文,介绍展示了 GenRM 生成式验证器,创造性提出奖励模型,从而提升生成式 AI 推理能力。AI 行业内,目前提高大语言模型(LLMs)的主流做法就是 Be ...
 9 月 3 日动静,谷歌 DeepMind 团队于 8 月 27 日正在 arxiv 上揭晓论文,引见展现了 GenRM 天生式考证器,缔造性提出嘉奖模子,从而提拔天生式 AI 推理才能。

AI 止业内乱,今朝进步年夜言语模子(LLMs)的支流做法便是 Best-of-N 形式,即由 LLM 天生的 N 个候选处理计划由考证器停止排序,并选出最好计划。

这类基于 LLM 的考证器凡是被锻炼成鉴别分类器去为处理计划挨分,但它们没法操纵预锻炼 LLMs 的文本天生才能。

DeepMind 团队为了克制那个范围性,测验考试利用下一个 token 猜测目的去锻炼考证器,同时停止考证息争决计划天生。

DeepMind 团队这类天生式考证器(GenRM),比拟较传统考证器,次要包罗以下长处:

无缝散成指令调解

撑持思想链推理

经由过程大都投票操纵分外的推理工夫计较

正在算法战小教数教推理使命中利用基于 Gemma 的考证器时,GenRM 的机能劣于鉴别式考证器战 LLM-as-a-Judge 考证器,正在利用 Best-of-N 处理成绩的百分比上进步了 16-64%。

据 Google DeepMind 报导,GenRM 相对分类嘉奖模子的边标记着野生智能嘉奖体系的枢纽演变,出格是正在其容量圆里,以避免新模子教成到的狡诈举动。那一前进凸起表白,火急需求完美嘉奖模子,令人工智能输出取社会义务尺度连结分歧。

  • 0
    粉丝
  • 80146
    阅读
  • 0
    回复

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息
掌握市场风云动态
助力商场共赢至胜
改变你所看到的世界
热门资讯
排行榜

关注我们: 微信订阅&APP下载

发现价值 创造价值

WNCEO.COM

世界总裁网版权所有 未经世界总裁网书面授权禁止复制或建立镜像内容

Email: service@wnceo.com 电话: 010-86398086 / 400-848-6648

地址: 北京市朝阳区广渠路36号首城国际大厦10层 邮编: 100010

Copyright  ©2008-2025 世界总裁网All rights reserved. 工信部许可备案号:京ICP备12045339号-2