文字序顺不响影GPT-4阅读理解，别的大模型都不行

发布时间: 2023-12-5 20:09| 发布者: wangjing| 查看: 8469| 评论: 0

摘要: 研表究明，汉字序顺并不定一影阅响读（对于英文来说，则是每一个单词中的字母顺序）。现在，日本东京大学的一项实验发现，这个“定理”居然也适合GPT-4。比如面对这样一段“鬼画符”，几乎里面每一个单词的每一个字 ...

研表究明，汉字序逆其实不定一影阅响读（关于英文来讲，则是每个单词中的字母挨次）。

如今，日本东京年夜教的一项尝试发明，那个“定理”竟然也合适GPT-4。

好比面临如许一段“鬼绘符”，险些内里每个单词的每个字母皆被挨治：

oJn amRh wno het 2023 Meatsrs ermtnoTuna no duySan taatgsuAu ntaaNloi Gflo bClu, gnelcinhi ish ifsrt nereg ecatkjnad ncedos raecer jroam。

但GPT-4竟然完善天规复出了本初句子（白框部门）：

本来是一个叫做Jon Rahm的人博得了2023年好国巨匠赛（下我妇）的故事。

而且，假如您间接便那段治码对GPT-4停止发问，它也能先了解再给出准确谜底，一面女也没有影响浏览：

对此，研讨职员感应十分受惊：

按理道治码单词会对模子的tokenization处置形成严峻滋扰，GPT-4竟然战人类一样没有受影响，那有面违背曲觉啊。

值得一提的是，那项尝试也测试了其他年夜模子，但它们齐皆应战失利——有且唯一GPT-4胜利。

详细怎样道？

笔墨挨次没有影响GPT-4浏览

为了测试年夜模子抗笔墨庞杂滋扰的才能，做者构建了一个特地的测试基准：Scrambled Bench。

它共包罗两类使命：

一是减扰句子规复（ScrRec），即测试年夜模子规复治序句子的才能。

它的量化目标包罗一个叫做规复率（RR）的工具，能够简朴了解为年夜模子规复单词的比例。

两是减扰问问（ScrQA），丈量年夜模子正在高低文质料中的单词被挨治时准确了解并答复成绩的才能。

因为每一个模子自己的才能其实不不异，我们欠好间接用精确性去评价那一项使命，因而做者正在此接纳了一个叫做相对机能删益（RPG）的量化目标。

详细测试素材则选自三个数据库：

一个是RealtimeQA，它每周宣布当前LLM没有太能够明白的最新动静；

第两个是DREAM（Sun et al.，2019），一个基于对话的多项挑选浏览综开数据散；

最初是AQuARAT，一个需求多步推理才气处理的数教成绩数据散。

关于每一个数据散，做者从中浮薄出标题问题，并停止差别水平战范例的滋扰，包罗：

1、随机减扰（RS），即对每个句子，随机挑选必然比例（20%、50%、100%）的单词，对那些单词中的一切字母停止挨治（数字稳定）。

2、连结每一个单词的第一个字母稳定，剩下的随便布列（KF）。

3、连结每一个单词的尾字母战最初一个字母稳定，剩下的随机挨治（KFL）。

到场测试的模子有许多，文章注释次要陈述了以下几个：

text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b战Llama-2-70b。

起首去看差别滋扰范例的影响。

以下图所示：

正在KFL设置中（即尾尾字母稳定），不论是减扰句子规复仍是减扰问问使命，模子之间的机能差异皆没有年夜。

但是，跟着滋扰易度愈来愈下（变成KF战RS后），模子的机能皆迎去明显降落——除GPT-4。

详细而行，正在减扰句子规复（ScrRec）使命中，GPT-4的规复率一直下于95%，正在减扰问问（ScrQA）使命中，GPT-4的相瞄准确性也皆一直维正在85%-90%阁下。

比拟之下，其他模子有的皆失落到了不敷20%。

其次是差别减扰率的影响。

以下图所示，能够看到，正在减扰句子规复（ScrRec）使命中，跟着一个句子中被滋扰的单词数目愈来愈多，曲至100%以后，只要GPT-3.5-turbo战GPT-4的机能出有明显变革，固然，GPT-4仍是比GPT-3.5劣先了很年夜一截。

而正在减扰问问（ScrQA）使命中，跟着句子中被挨治的单词数目愈来愈多，一切模子机能皆呈现了皆明显降落，且差异愈来愈年夜。

但正在此中，GPT-4借能以87.8%的成就连结远远抢先，而且降落幅度也是最细微的。

以是简朴总结来讲便是：

年夜大都模子皆能够处置必然比例的滋扰文本，但到极度水平时（好比单词局部挨治），便只要GPT-4表示最好，只要GPT-4面临完整紊乱的词序，险些没有怎样被影响。

GPT-4借善于分词

正在文章最初，做者指出：

除挨治单词字母挨次以外，借能够研讨插进字母、交换字母等状况的影响。

独一的成绩是，因为GPT-4为闭源，各人也欠好查询拜访为何GPT-4能够没有被词序影响。

有网友发明，除本文所证实的状况，GPT-4也十分善于将上面那一段完整连起去的英文：

UNDERNEATHTHEGAZEOFORIONSBELTWHERETHESEAOFTRA

NQUILITYMEETSTHEEDGEOFTWILIGHTLIESAHIDDENTROV

EOFWISDOMFORGOTTENBYMANYCOVETEDBYTHOSEINTHEKN

OWITHOLDSTHEKEYSTOUNTOLDPOWER

准确分开开去：

Underneath the gaze of Orion’s belt, where the Sea of Tranquility meets the edge of twilight, lies a hidden trove of wisdom, forgotten by many, coveted by those in the know. It holds the keys to untold power.

按理来讲，这类分词操纵是一件很费事的事女，凡是需求静态编程等操纵。

GPT-4表示出去的才能再次让那位网友感应惊奇。

他借把那段内乱容放进了OpenA民圆的tokenizer东西，发明GPT-4看到的token实际上是如许的：

UNDER NE AT HT HE GA Z EOF OR ION SB EL TW HER ET HE SEA OF TRA

那内里除“UNDER”、“SEA”战“OF”以外，险些剩下的一切token皆看起去“毫无逻辑”，那愈加令人费解了。

对此，年夜伙是怎样看的呢？

1、转载或引用本网站内容须注明原网址，并标明本网站网址(https://www.wnceo.com)。

2、本网站部分投稿来源于“网友”，文章内容请反复甄别。若涉及侵权请移步网站底部问题反馈进行反映。

3、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

4、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

收藏分享邀请

上一篇：做副业、养赛博女友，大模型被年轻人玩疯了下一篇：AI+PaaS，中国云计算市场迎来新“变量”？

wangjing

0
粉丝
8469
阅读
0
回复

作者其他文章

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息

掌握市场风云动态

助力商场共赢至胜

改变你所看到的世界

资讯幻灯片

热门资讯

05-30

wangjing

OpenAI新AI硬件大爆料郭明錤：可挂在脖子

艾维与奥特曼凤凰网科技讯北京时间5月22日，针对OpenAI与苹果传奇设计师乔纳森·艾维
05-30

wangjing

5000亿美元“星际之门”项目首站：甲骨文40

金融时报（5 月 24 日）发布博文，报道称甲骨文（Oracle）计划斥资约 400 亿美元，购
05-30

wangjing

不听人类指挥OpenAI模型拒绝关闭

新华社北京5月26日电英国《每日电讯报》25日报道，美国开放人工智能研究中心(OpenAI)
05-30

wangjing

扎克伯格难留AI人才：Llama团队近八成顶尖

扎克伯格与纳德拉凤凰网科技讯北京时间5月27日，据《商业内幕》报道，Meta开源大模型
05-30

wangjing

红帽联手谷歌、NVIDIA启动llm-d开源项目，

全球开源解决方案领导者红帽公司近日宣布启动革命性开源项目llm-d，专门应对生成式AI
05-30

wangjing

一场比赛催生5000万订单：机器人产业进入“

摘要：这场机器人格斗大赛的意义，远不止于一场表演。它像一面镜子，映照出人形机器人
05-30

wangjing

谷歌CEO皮查伊回应OpenAI联手艾维：他是独

皮查伊凤凰网科技讯北京时间5月28日，据《商业内幕》报道，OpenAI上周通过近65亿美元
05-30

wangjing

腾讯混元推出AI数字人技术：一张照片配音频

凤凰网科技讯 5月28日，腾讯混元团队联合腾讯音乐天琴实验室正式发布并开源语音数字人
05-30

wangjing

谷歌25年磨一剑，苹果AI掉队有何奇怪？

谷歌创始人佩奇在25年前就开始AI布局凤凰网科技讯北京时间5月29日，《商业内幕》周三
05-30

wangjing

全球首款生成式人形机器人运动大模型发布：

今日上午，国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院，正式发布了

热门专题

OpenAI新AI硬件大爆料郭明錤：可挂在脖子

5000亿美元“星际之门”项目首站：甲骨文40

不听人类指挥OpenAI模型拒绝关闭

扎克伯格难留AI人才：Llama团队近八成顶尖

红帽联手谷歌、NVIDIA启动llm-d开源项目，

一场比赛催生5000万订单：机器人产业进入“

排行榜