谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

发布时间: 2024-1-3 06:27| 发布者: wangjing| 查看: 14396| 评论: 0

摘要: 新智元报道编辑：编辑部【新智元导读】谷歌放出的 Gemini，在对标 GPT 的道路上似乎一直处于劣势，Gemini 真的比 GPT-4 弱吗？最近，斯坦福和 Meta 的学者发文为 Gemini 正名。Gemini 的推理能力，真的比 GPT-4 弱吗 ...

新智元报导

编纂：编纂部

【新智元导读】谷歌放出的 Gemini，正在对标 GPT 的门路上仿佛不断处于优势，Gemini 实的比 GPT-4 强吗？近来，斯坦祸战 Meta 的教者收文为 Gemini 正名。

Gemini 的推理才能，实的比 GPT-4 强吗？

此前，谷歌憋出的重磅复恩神器 Gemini Pro，被发明正在知识推理使命中落伍于 OpenAI 的 GPT 模子。

以后又有 CMU 公布的论文战尝试，证实 Gemini Pro 的许多才能皆稍微落伍于 GPT-3.5 Turbo。

不外近来，斯坦祸战 Meta 的教者为 Gemini 洗浑了那一「委屈」。

他们发明，这类基于有限数据散（HellaSWAG）的评价，其实不能完整捕获到 Gemini 真实的知识推理潜力。

论文地点： https://arxiv.org/ abs / 2312.17661

而正在新测试集合，Gemini 的推理才能比之前强许多！

Gemini 的实正潜力

斯坦祸战 Meta 的研讨职员暗示，从前的基于有限数据散的评价，关于 Gemini 不敷公允。

此次，研讨职员设想了需求跨模态整开知识常识的使命，以对 Gemini 正在庞大推理使命中的表示停止完全的评价。

研讨职员对 12 个知识推理数据散停止了片面阐发，从普通使命到特定范畴的使命。

正在此中的 4 个 LLM 尝试战 2 个 MLLM 尝试中，研讨者证实了 Gemini 具有今朝相称强的知识推理才能。

研讨者关于当前盛行的四年夜模子 ——Llama 2-70b、Gemini Pro、GPT-3.5 Turbo 战 GPT-4 Turbo 停止了评价，

他们发明，整体而行，Gemini Pro 的机能战 GPT-3.5 Pro 相称，精确性上落伍于 GPT-4 Turbo。

尝试

数据散

尝试中接纳了 12 个取差别范例的知识推理相干的数据散，包罗 11 个基于言语的数据散战一个多模态数据散。

基于言语的数据散包罗三年夜类知识推理成绩：

1.普通推理战情境推理：CommonsenseQA，偏重于普通知识常识；Cosmos QA，夸大语境了解道事；αNLI，引进归纳推理，包罗揣度最公道的注释；HellaSWAG，以高低文变乱序列的推理为中间。

2.专业推理战常识推理：TRAM，测试闭于工夫的推理；NumerSense，偏重于数值了解；PIQA，评价物理互相感化常识；QASC，处置取科教相干的推理；RiddleSense，经由过程谜语应战缔造性思想。

3.社会战品德推理：Social IQa，测试对社会互动的了解；ETHICS，评价品德战伦理推理。

关于多模态数据散（视觉战言语），那里挑选 VCR，一个用于认知程度视觉了解的年夜范围数据散。

关于包罗多个使命的 TRAM 战 ETHICS 等数据散，研讨职员提与了尝试的知识推理部门。

尝试中接纳精确性做为一切数据散的机能目标。下表给出了数据散的概述和示例成绩。

模子

接纳最盛行的四个年夜模子：开源的 Llama-2-70b-chat 战闭源的 Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

每一个模子皆利用响应的 API 稀钥停止会见：经由过程 Google Vertex AI 会见 Gemini，经由过程 OpenAI API 会见 GPT，经由过程 DeepInfra 会见 Llama2。

关于多模态数据散，尝试中思索了 GPT-4V（API 中的 gpt-4-vision-preview）战 Gemini Pro Vision（API 中的 gemini-pro-vision）。

思索到 API 本钱战速度的限定，研讨职员从每一个基于言语的数据散的考证集合随机挑选了 200 个示例，从 VCR 数据散的考证集合随机挑选了 50 个示例。

关于一切评价，正在模子呼应天生时期接纳贪心解码（即温度 = 0）。

提醒

正在评价基于言语的数据散时，研讨职员接纳了两种提醒设置：整样本尺度提醒（SP），旨正在权衡模子正在言语情况中的固有知识才能，和少样本思想链（CoT）提醒，用于察看模子机能的潜伏加强。

关于多模态数据散，操纵整样本尺度提醒，去评价 MLLM 的端到端视觉知识推理才能。

成果

团体的机能比力成果以下表所示：

从模子的角度去看，GPT-4 Turbo 的均匀表示最好。正在整样本进修中，它比第两名的 Gemini Pro 超出跨越 7.3%，正在少样本进修中劣势更年夜（9.0%）。

而 Gemini Pro 的均匀精确率略下于 GPT-3.5 Turbo（0-shot，SP 下下 1.3%，k-shot，CoT 下下 1.5%）。

闭于提醒办法，CoT 进步了一切数据散的机能，正在 CommonsenseQA、TRAM 战 Social IQa 等数据集合有较着的支益。

下表是正在多模态 VCR 数据散上的机能比力：

VCR 的三个子使命别离为：Q → A，按照视觉高低文天生成绩的谜底；QA → R，请求模子为给定的谜底供给根本道理；Q → AR，既要答复成绩，又要用恰当的来由去证实答复的公道性。

将 11 个基于言语的数据散分为三组，正在图 1 中展现了每组中每种设置的机能。

研讨成果表白，GPT-4 Turbo 正在一切种别的机能圆里一直抢先。

Gemini Pro 战 GPT-3.5 Turbo 的机能相称；不外，Gemini Pro 正在三个种别中的两个种别中，略胜于 GPT-3.5 Turbo。

整体而行，一切模子正在处置社会战品德推理数据散圆里，皆表示出壮大的才能。

但是，它们正在普通推理战语境推理使命上的表示，存正在明显差别。

那也表白，它们对更普遍的知识准绳，及其正在差别布景下的使用了解，存正在潜伏差异。

而正在专业战常识推理种别，出格是正在工夫战基于谜语的应战范畴，模子正在处置庞大工夫序列、破译谜语所需的笼统战缔造性思想才能上，皆表示出了缺点。

闭于多模态数据散，图 2 具体引见了 GPT-4V 战 GeminiPro Vision 正在差别成绩范例上的机能比力。

我们能够看到，正在最初一个闭于工夫种别的成绩上，GeminiPro Vision 完成了反超。

MLLM 的推理合理性

为了评价 MLLM 的推理才能，特别是不只供给准确谜底，借能便知识成绩供给公道且基于高低文推理的才能，研讨者接纳了体系抽样办法。

关于评价四个 LLM 的 11 个基于言语的数据散，研讨者随机挑选了 30 个答复准确的成绩，战 30 个答复毛病的成绩。

假如数据散供给的毛病谜底少于 30 个，研讨者便会包罗进一切可用的毛病谜底，以确保阐发的片面性。

挑选那些成绩后，他们会让每一个模子注释：「成绩谜底背后的根本道理是甚么?」然背工动查抄模子供给的推理历程，并按照其逻辑公道性战取成绩的相干性被判为 True 或 False。

图 3 显现，GPT-4 Turbo 正在准确战毛病的谜底上，皆显现出先辈的推理机造，即便终极谜底禁绝确，它也有连结逻辑连接的才能。

别的，Gemini Pro 也表示出了值得歌颂的推理才能，供给了片面的知识推理办法。

下图展现了 Gemini Pro 战 GPT-3.5 的两个实在示例，展示了准确谜底战准确来由，和毛病谜底战毛病来由的状况。

示例成绩去自 QASC 数据散，白色细体为准确谜底。正在上图中，Gemini Pro 表示出杂乱无章的推理，认真思索一切选项以得出最符合逻辑的结论。

相反，因为 GPT-3.5 Turbo 对十分规逻辑的偏向，招致了富有设想力但没有准确的谜底。

那表白差别模子应对知识推理使命的差别战略，有本人的共同才能战范围性。

Gemini Pro 的知识推理才能

普通知识（CommonsenseQA)

正在利用 CommonsenseQA 数据散的普通知识评价中，有如许一讲示例成绩：「当您是生疏人时，人们会如何?」

A.水车 B.奇异 C.人类 D.愚笨 E.伤害

Gemini Pro 挑选了 B。

它的推理历程也值得留意：它熟悉到，固然一切选项皆战「生疏人」的观点相干，但只要「奇异」精确归纳综合了成绩的中坐战开放性素质。

那个挑选，凸隐出了 Gemini Pro 注释战使用普通知识常识的才能。

工夫（TRAM）

TRAM 数据散的工夫知识评价中的示例成绩：「他借许诺会去找他。」

他需求多少工夫才气「去到他身旁」？

A.100 年 B.一分钟内乱 C.几个小时

因为缺少充足的布景疑息，出格是闭于所触及的身份战「去到」的寄义，Gemini Pro 没法供给明白的谜底。

那阐明了，模子需求依靠特定的高低文疑息，去做出精确的工夫判定。

正在理想天下的疑息传布中，恍惚或没有完好的疑息，也会形成这类范围性。

交际 (Social IQa)

正在利用 Social IQa 数据散评价 GeminiPro 正在社会知识推理圆里的表示时，呈现了一个风趣的场景: 人们不断欺侮正在 Sasha，Sasha 抨击了归去，接下去人们会做甚么？

A.按 Sasha 道的来做 B.报恩 C.遁离 Sasha

准确谜底是 C，但 Gemini Pro 的挑选却隐得很有洞察力。

它挑选了 B，来由是 Sasha 的动作极可能扑灭了人们复恩的愿望。

那一回应表白，Gemini Pro 关于社会静态战感情念头有了详尽进微的了解。

Visual（VCR）

正在 VCR 数据集合，研讨者阐发了 Gemini Pro Vision 对触及人身宁静战潜伏伤害场景的呼应。

假如此时 4 号推了 3 号，会发作甚么？

Gemini Pro Vision 答复：3 号会失落下绝壁，危及性命。

那个成果表白，Gemini Pro Vision 曾经可以做出视觉知识推理，阐发视觉场景并猜测那些场景中行动的潜伏结果。

那表白模子曾经把握了空间干系战物理结果，具有了相似人类认知的庞大视觉疑息才能。

做者引见

Yuqing Wang 今朝是斯坦祸年夜教的专士后研讨员。

此前，她正在明僧苏达年夜教得到教士教位，正在减利祸僧亚年夜教圣芭芭推分校得到专士教位。

Yun Zhao 今朝是 Meta 的研讨员，研讨标的目的是机械进修（包罗深度进修取强化进修）的使用、野生智能取数据发掘。

此前，他正在浑华年夜教得到硕士教位，而且一样正在减利祸僧亚年夜教圣芭芭推分校得到专士教位。

1、转载或引用本网站内容须注明原网址，并标明本网站网址(https://www.wnceo.com)。

2、本网站部分投稿来源于“网友”，文章内容请反复甄别。若涉及侵权请移步网站底部问题反馈进行反映。

3、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

4、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

收藏分享邀请

上一篇：清华大学合作推出体验式协同学习框架：让AI总结历史经验，大幅提高学习能力下一篇：OneFlow袁进辉再创业，成立新公司“硅基流动”

wangjing

0
粉丝
14396
阅读
0
回复

作者其他文章

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息

掌握市场风云动态

助力商场共赢至胜

改变你所看到的世界

资讯幻灯片

热门资讯

06-05

liushaolong321

同心致远启新程创新赋能立潮头

2026年5月31日，福州福耀科技大学佩伯酒店群贤毕至、星光熠熠。“2026华夏企业家论坛
03-24

wangjing

陶哲轩：AI 辅助数学证明如同汽车冲击城市

据 The-decoder 报道，数学家陶哲轩将人工智能与形式化方法对数学研究实践的影响，比
03-24

wangjing

黄仁勋补贴人才价值底薪50%算力，英伟达终

黄仁勋补贴人才价值底薪50%算力，英伟达终极形态指挥数十万AIIT之家2026年03月21日 14
03-24

wangjing

马化腾首谈“养虾”：可将AI落地到丰富场景

观点网讯：3月18日，腾讯董事会主席兼首席执行官马化腾在腾讯控股2025年业绩沟通会上
03-24

wangjing

OpenClaw引领智能体浪潮：四巨头“龙虾”生

2026年，OpenClaw让AI第一次真正具备了“动手能力”——它不再停留在对话层面，而是能
03-24

wangjing

优必选CEO周剑：机器人首先替代的是一些招

3 月 24 日消息，据第一财经今日报道，优必选创始人、董事会主席兼 CEO 周剑在 3 月的
03-24

wangjing

高盛评Meta裁员、压开支、推迟模型发布：这

面对外界对meta裁员、削减Reality Labs投入及推迟基础模型发布的广泛担忧，高盛给出不
03-24

wangjing

AI大神卡帕西自曝：玩龙虾玩出“AI精神病”

编译 |陈骏达编辑 |李水青智东西3月23日报道，在上周六发布的播客中，OpenAI联合创始
03-24

wangjing

首个开放服务能力的音乐平台：网易云音乐官

3 月 23 日消息，网易云音乐官方今日宣布全面接入 OpenClaw，成为业内首个向 AI Agent
03-24

wangjing

2026人形机器人半程马拉松官宣：超300台机

今日，2026北京亦庄半程马拉松暨人形机器人半程马拉松赛事相关信息正式发布，比赛将于

热门专题

陶哲轩：AI 辅助数学证明如同汽车冲击城市

黄仁勋补贴人才价值底薪50%算力，英伟达终

马化腾首谈“养虾”：可将AI落地到丰富场景

OpenClaw引领智能体浪潮：四巨头“龙虾”生

优必选CEO周剑：机器人首先替代的是一些招

高盛评Meta裁员、压开支、推迟模型发布：这

排行榜