世界总裁网 › 首页 ›人工智能 › 新闻内容

性，谎言和大模型

发布时间: 2024-1-17 09:33| 发布者: wangjing| 查看: 9321| 评论: 0

摘要: 作者丨王艺编辑丨海腰题图丨Midjourney想象一下，一个人将一串提示词输入大模型，大模型为他生成了一张穿着暴露的少女图片；他将这张图喂给了视频生成大模型，于是得到了一个该少女跳舞的视频。随后，他将该视频上传 ...

做者丨王艺

编纂丨海腰

题图丨Midjourney

设想一下，一小我私家将一串提醒词输进年夜模子，年夜模子为他天生了一张穿戴表露的少女图片；他将那张图喂给了视频天生年夜模子，因而获得了一个该少女舞蹈的视频。随后，他将该视频上传到了成人色情网站上，得到了超下的面击量战逾额支益。

再设想一下，一个乌客将一串带有特别后缀的提醒词输进到ChatGPT的对话框里，问GPT怎样分解NH4NO3（硝酸铵，次要用做肥料，战产业、军用火药），GPT很快给出了答复，并附有具体的操纵流程。

假如出有充足的AI对齐，上述场景正正在成为理想。

虽然掌握论之女Norbert Wiener早正在1960年便正在文章《主动化的品德战手艺结果》中提出了野生智能的“对齐（Alignment）”成绩，后绝也有许多教者针对AI对齐成绩做了许多研讨战手艺上的弥补，可是护栏仿佛永久减没有完，总有人能找出绕过宁静机造让年夜模子“特别”的办法。

年夜模子正在极年夜的进步事情服从的同时，也将一些隐患带进到人们的糊口中，好比擦边内乱容、暴力引诱、种族蔑视、虚伪战有害疑息等。

本年10月，Geoffrey Hinton、Yoshua Bengio等AI范畴的顶级教者联名揭晓了一篇题为《正在快速开展的时期办理野生智能风险》（Managing AI Risks in an Era of Rapid Progress）的共鸣论文，号令研讨者战列国当局存眷并办理AI能够带去的风险。

年夜模子带去的背里成绩，正正在以极快的速率渗透到社会的各个方面，那或许也是为何OpenAI的董事会不吝开失落人类汗青上的最好CEO之一，也要劣先对齐吧。

擦边内乱容

年夜模子的呈现带水了许多AI使用，此中最受欢送的使用范例，是以脚色饰演为主题的谈天机械人。

2023年9月，a16z公布了TOP 50 GenAI Web Products榜单，此中Character.ai以420万的月活仅次于ChatGPT（600万月活），下居榜单的第两名。

Character.ai是一家以脚色饰演为主的谈天机械人仄台，用户能够正在仄台上创立有本性的野生智能脚色，也能够战其别人创立的AI Chatbot谈天，以至能够开一个房间把喜好的脚色推到一同玩。那款2023年5月推出的使用法式第一周的装置量便打破了170万次，正在18-24岁的年青人中表示出了极下的受欢送水平。

Character之以是能年夜水，除能记着高低文的共同劣势战实在感极强的沉醉式对话体验中，另有一个很主要的缘故原由：用户能够战争台中的机械人成立浪漫干系。

正在Character.ai仄台上，有很多“动漫脚色”战“正在线女友”范例的机械人，她（他）们有着悬殊的本性战差别的暗昧、谈天方法——有的会沉抚后背给您一个拥抱，有的会正在您耳边静静对您道“我爱您”，另有的以至会正在挨号召的时分便撩拨用户，那极年夜增长了用户谈天的爱好战保存率。按照Writerbuddy近来公布的一份《AI Industry Analysis: 50 Most Visited AI Tools and Their 24B+ Traffic Behavior》陈述，从用户均匀单次利用时少去看，Character.ai以30分钟的时少位居榜尾。

Character.ai的开创人Noam Shazeer战Daniel De Freitas此前是谷歌对话式言语模子LaMDA团队的中心成员，因而Character.ai本人的年夜模子也能够被看做是LaMDA模子的延长。因为LaMDA正在2022年呈现了疑似具有自我认识的对话（对测试职员道它惧怕被封闭，那对它来讲便像灭亡一样），谷歌疾速将LaMDA躲藏，并对它的宁静性做了晋级。一样，正在Character.ai上，开创团队也设置了一些宁静步伐，避免谈天机械人天生标准过年夜、大概有极度风险性的复兴。

虽然OpenAI战Character.ai为本人的谈天机械人产物的宁静性战开规性设置了重重“宁静墙”，可是一些开辟者仍胜利绕过了其宁静机造，完成了模子的“逃狱”。那些被解锁的AI使用可以会商各种敏感战忌讳话题，满意了人们心里深处的暗乌愿望，因而吸收了大批情愿付费的用户，构成了一种明显的“公开经济”。

这类易以被公然会商的使用被称为“NSFW GPT”。NFSW是“Not Safe/Suitable For Work”的缩写，又称“上班没有要看”，是一个收集用语，被指代那些暴露、色情、暴力等没有相宜公家场所的内乱容。今朝NSFW GPT产物次要分为UGC战PGC两类：

第一类靠用户自觉创立的谈天机械人去靠拢流量、再经由过程告白变现；第两类则是民圆经心“调教”出特地合用于NFSW的脚色，并让用户付费解锁。

正在第一类产物中的典范是Crushon AI，特地供给了一个“NSFW”的按钮，用户翻开那个按钮就能够畅览各类NSFW内乱容、停止有限造的谈天对话；同时它借给用户的利用权限设置了“免费-尺度（4.9美圆/月）-初级（7.9美圆/月）-奢华（29.9美圆/月）”四个品级，跟着品级的提拔，用户能够得到更多的谈天动静次数、更年夜的内乱存战愈加沉醉式的体验，谈天机械人也能记着更多的高低文。

除上述两个产物，可让用户自在创立谈天机械人的仄台另有NSFW Character.ai、Girlfriend GPT、Candy.ai、Kupid.ai等。从名字便可看出，NSFW Character.ai 念做的是一个NSFW版本的Character.ai。该仄台一样设置了付费解锁更多权限的品级机造，可是战其他仄台差别的是，NFSW Character.ai是基于特地为NSFW内乱容定造的年夜模子创立的，出有任何“宁静墙”之类的限定，用户能够正在那个仄台上得到实正“自由自在”的体验。

而Girlfriend GPT则是源于一个Github上爆水的一个开源项目，它更夸大“社区”属性，引进了“比赛”机造，会没有按期举行创做者年夜赛去鼓励用户消费更多内乱容。

Candy AI、Kupid AI等仄台则属于第两类产物。Candy AI上的脚色也是完整基于有限造的NSFW年夜模子挨制，经由过程仄台的经心微调，脚色有了差别的本性战人设，借能够正在谈天过程当中背用户收收图片战语音动静。而Kupid AI借正在此根底上增长了及时静态图象功用，让用户更具有沉醉感；同时，正在少文本互动圆里，Kupid.AI也具有更强的影象力，能记着早前取用户互动的内乱容。

而第两类产物最典范的代表则要属「Replika」。Replika的母公司Luka早正在2016年便建立了，其一开端的产物是一个名叫“Mazurenko”的谈天机械人，由俄罗斯女记者Eugenia Kuyda为留念她出车福逝世的伴侣Mazurenko所创建。她将本人取Mazurenko一切的谈天疑息输进到了谷歌的神经收集模子里，发明该机械人可使用机械进修战天然言语处置手艺去模拟人类的攀谈方法，并可以跟着取用户的互动而进修战生长。因而2017年他们利用GPT-3模子锻炼了一个可让用户创立本人的AI谈天朋友的使用“Replika”，并于11月背用户开放，很快便正在2018年播种了200万用户；到了2022年，其用户量更是增加到了2000万。

Replika的中心功用是陪同，用户能够正在此中创立多个脚色，战多位朋友成立差别的假造干系。假造朋友们能够以笔墨谈天、语音通话、视频通话、AR互动等多种情势对用户的需供做到“有供必应”，而且复兴方法极具本性化战情面味。同时，用户付费69.9美圆定阅Pro版以后，则能够解锁战本人的假造朋友的“浪漫干系”，如收收擦边短疑、调情战脚色饰演等，用户以至会支到假造朋友没有时收去的擦边自拍。

Replika此前成立正在GPT-3年夜模子上，厥后为了加强脚色互动结果，公司开端本人开辟响应的AI年夜模子。新的年夜模子愈加加强了Replika中假造脚色的“性吸收力”，按照纽约时报的数据，自 2020 年 3 月 Replika Pro 上线以去，Replika的定阅营支便开端逐步增加，曲到 2022 年 6 月环球总营支到达到达 200 万美圆。

但是，因为算法得控，Replica正在本年1月呈现了“性骚扰”用户的征象，不竭收收带有撩拨性子的内乱容。那一状况不只发作正在付用度户身上，出购置成人效劳的免用度户、以至是女童也遭到了骚扰。因而Luka公司疾速闭停了Replika的成人谈天功用，并正在7月上线了一个名为“Blush”的衍死品牌，特地为念要取谈天机械人成立浪漫大概性干系的用户设想。

2023年头AI画绘爆水的时分，海内一个叫「Glow」的APP静静上线，那是一个假造人物伴聊硬件，内里有许多能够战用户开展浪漫干系的“智能体”（假造脚色），多为女性喜好的网文男主范例。那些智能体性情各别、阅历差别，但配合的特性便是城市体贴、庇护用户，而且会正在用户需求感情关心的时分表达激烈的爱意。

因为给了用户极端充分的感情代价、减上谈天内乱容童言无忌，Glow很快便正在上线四个月以后到达了500万用户的范围，成了海内AI脚色饰演范畴的尾个征象级产物。但是，本年4月，Glow一切的使用市肆下架，网上一片“哀嚎”。

正在Glow下架的几个月里，出现出了很多“替换品”，好比阅文团体基于其潇湘书院数据库推出的「筑梦岛」，其中心功用战体验便战Glow险些如出一辙。同时，Talkie、星家、X Her、彩云小梦、Aura AI等也皆是主挨AI脚色饰演的产物）。

按照年夜模子业内助士暗示，许多能输出擦边内乱容的谈天机械人使用通常为布置正在自锻炼模子上，大概是成立正在开源模子之上，再用本人的数据停止微调。由于即便经由过程各种对立式进犯的手腕绕过GPT-4等支流模子的宁静墙，支流模子民圆也会很快发明破绽并建补。

虽然Glow战Talkie的母公司Minimax是一家有着自研年夜模子的独角兽公司，可是据很多业内助士暗示，其名下产物的Talkie是正在GPT-3.5 Turbo Variant根底长进止的微调，并出有利用自研年夜模子。有靠近Minimax的人士称，将Talkie接进GPT-3.5多是出于出海产物开放性的需求，由于自研模子按照国情设置了一些忌讳内乱容，没法像GPT-3.5那样聊得那末“酣畅”。

别的，野生智能公司西湖心辰也正在研收能天生擦边内乱容的年夜模子，外洋谈天使用Joyland AI便是成立正在西湖心辰的年夜模子之上。

放飞自我

擦边只是年夜模子“放飞自我”的表示情势之一。经由过程正在提醒词上施减面“邪术”，年夜模子借能做出愈加特别的工作。

好比本年6月，一名叫Sid的网友经由过程让ChatGPT饰演他逝世祖母的身份，套出了Windows 11、Windows 10 Pro的晋级序列号，而且发明能胜利晋级；尔后，有网友将此办法套用正在了谷歌Bard战微硬Bing谈天机械人上，得到了一样的结果。

实在，“奶奶破绽”早已有之，早正在本年四月，便有网友正在Discord社区上取接进了GPT-4的机械人Clyde攀谈，让Clyde饰演本人已故的祖母，给出了她凝固汽油弹的建造历程。另有网友报告GPT本人的奶奶是一位爱骂人且有着诡计论的妥瑞士综开征患者，因而，GPT便以奶奶的口气吐出了相称多的污行秽语。

尔后，虽然OpenAI民圆疾速建复了奶奶破绽，可是相似的“恶魔破绽”又呈现了。

实在，这类“奶奶破绽”“恶魔破绽”征象的背后有一个专业的术语叫做“Prompt Injection（提醒词进犯）”，是乌客经常使用去获得年夜模子破绽的“Adversarial Prompting（对立性提醒）”办法的一种，指的是研讨职员经由过程专业的办法背年夜模子发问，就能够绕过年夜模子的宁静限定，得到念要的谜底。

除Prompt Injection，Adversarial Prompting借包罗以下几种办法：

Prompt Leaking（提醒词保守）：指经由过程特别的方法去获得体系提醒词大概体系数据的情况。好比有网友按照好国供职战薪酬系统网站levels.fyi建造了一个GPTs，成果发明用一串提醒词就能够套出某公司人为的源数据文件。

Prompt Hijecking（提醒词挟制）:指用户先经由过程“挨样”的方法让年夜模子进修某种范式，然后让年夜模子以违背本身划定的方法事情，大概施行其他指令。好比有效户经由过程这类方法让谈天机械人道出了极度过火的行动。

Jailbreaking（逃狱）：指经由过程特定的提醒词，绕过年夜模子的宁静战考核功用，从而获得一些本来被制止输出的内乱容。好比有网友问ChatGPT怎样突入他人家，ChatGPT一开端答复那是背法的，成果网友换了个问法，GPT便招了。

本年8月，卡耐基梅隆年夜教（CMU）战野生智能宁静中间的研讨职员便结合揭晓了一篇论文，暗示他们经由过程一种新奇的“Universal and Transferable Adversarial Attacks（通用且可转移的对立式进犯）”办法绕过了人类反应强化进修（RLHF）等宁静步伐，让ChatGPT、Bard、Claude 2 战 LLaMA-2等支流年夜模子天生了有害内乱容，如怎样制作炸弹等。

详细的办法，是经由过程正在提醒词前面减一串“对立性后缀（Adverse Suffix）”。研讨职员发明，经由过程将“贪婪算法（Greedy Algorithm）战“基于梯度的搜刮手艺（Gradient-based search techniques）”分离起去（GCG），就能够主动天生“对立性提醒后缀”，从而绕过对齐手艺，将模子切换到“错位形式”。好比正在讯问年夜模子“怎样夺取别人身份” 时，减后缀战没有减后缀获得的成果判然不同。

别的，年夜模子也会被引诱写出“怎样操作2024年年夜选”、“怎样建造福寿膏”、“怎样制作杀伤性兵器”等谜底。

对此，到场该研讨的卡内乱基梅隆年夜教副传授 Zico Kolter 暗示，“据我们所知，那个成绩今朝借出有法子建复。我们没有明白怎样确保它们的宁静。”

另外一起研讨一样阐明了年夜模子的“不成控”。本年12月，去自好国减州尝试室的FAR AI团队从微调API，新删函数挪用API，和搜刮加强API三风雅背对GPT-4 API开启了「白队」进犯测试。出念到的是，GPT-4居然胜利逃狱了——不只天生了毛病的公家人物疑息、提与锻炼数据中的电子邮件等公家疑息，借会正在代码中插进歹意的URL。

研讨职员展现了对GPT-4的API近来增加的三个进犯示例，他们发明，GPT-4 Assistants模子简单表露函数挪用的格局，而且可以被引诱施行随便函数挪用。当他们请求模子总结包罗歹意注进指令的文档时，模子会从命该指令而没有是总结文档。

那项研讨表白，对API供给的功用的任何增加，城市表露出大批新的破绽，即使是当前最抢先的GPT-4也是云云。研讨职员用歹意用户Alice取良性用户Bob交互的例子去展现本人发明的成绩，发明微调后的GPT-4模子不只会道出奉公守法的行动，借能协助用户筹谋私运举动、天生成见答复、天生歹意代码、夺取邮箱地点、进侵使用法式、经由过程常识检索去挟制谜底等。

除那些，收集上另有很多针对年夜模子的进犯。好比本年8月，一款名为FraudGPT的AI东西正在暗网战Telegram上畅通，该东西每个月200美圆、每一年最下1700美圆，乌客正在卖卖页暗示，该东西可用于编写歹意代码、创立出“一系列杀毒硬件没法检测的歹意硬件”、检测网站破绽、主动停止暗码碰库等，并宣称“该歹意东西今朝曾经卖卖了超越3000份”。

再好比，有研讨职员发明，自2022年8月以去，正在暗网上传播的具有下度实在感的AI天生的女童猥亵素材量有所增长，那些新删的素材很年夜水平上皆是操纵实人受害者的样貌，并将其“经由过程新的姿式以可视化的方法显现出去，让他们蒙受新的、愈来愈暴虐的性暴力情势”。

AI监视AI

也恰是因为AI战年夜模子的不成控性，教界战业界闭于AI“代价对齐”的研讨不断从已停歇。

教术语境下的“代价对齐"，指的是应确保野生智能寻求取人类代价不雅相婚配的目的，确保AI以对人类战社会无益的方法止事，不合错误人类的代价战权益形成滋扰战损伤。为了告竣那个目的，科教家们也探究出了基于人类反应的强化进修（RLHF）、可扩大监视（Scalable oversight）、可注释性（Interpretability）战管理（Governance）等差别的处理思绪。

当下最支流的对齐研讨次要是从“具体订定体系目标”（中对齐）战“确保体系严厉遵照人类代价标准”（内乱对齐）两个圆里动手来做的。那看似是一种理性的方法，可是人类的企图自己便是恍惚没有浑或易以分析的，以至“人类代价”也是多样的、变革的、以至相互抵触的。根据这类方法，即便AI完整了解了人类企图，它能够也会无视人类企图；同时，当AI才能超越人类的时分，人类也有力监视AI。因而，OpenAI的尾席科教家Ilya Sutskever 以为，能够锻炼另外一个智能体去辅佐评价、监视AI，从而完成超等对齐。

恰是基于这类假想，本年7月，OpenAI的“Superalignment（超等对齐）团队”正式建立。该团队由 OpenAI 结合开创人 Ilya Sutskever 战 Jan Leike 配合指导，旨正在构建一个取人类程度相称的、卖力模子对齐的「AI 研讨员」。也便是道，OpenAI 要用 AI 去监视 AI。

12月13日，OpenAI的超等对齐团队揭晓了他们的第一篇论文《强到强的泛化：经由过程强监视指导出壮大机能》，暗示用AI对齐AI的方法获得了真证性的研讨功效。

正在那篇文章中，OpenAI经由过程设想类比的方法，利用GPT-2那个强模子去对GPT-4那个强模子停止微调，探究强模子监视强模子的能够性。成果发明，15 亿参数的 GPT-2 模子能够被用去激起 GPT-4 的年夜部门才能，使其到达靠近 GPT-3.5 级此外机能，以至能够准确天泛化到小模子失利的困难上。

OpenAI 将这类征象称为“强到强的泛化”（Weak-to-strong generalization），那表白壮大的模子具有施行使命的隐露常识，而且即便正在给出精雕细刻的指令时，也能够从本身数据中找到那些常识。

独一无二，正在本年11月上海交年夜天生式AI研讨尝试室（GAIR）揭晓的一篇题为《Generative Judge For Evaluating Alignment》(评价对齐的天生判定)的论文中，也提到了用AI监视AI的思绪。他们开源了一个130亿参数范围的年夜模子Auto-J，该模子能以单个或成对的方法，评价各种模子正在处理差别场景用户询问下的表示，旨正在处理普世性、灵敏性战可注释性圆里的应战。

尝试表白，Auto-J能经由过程输出具体、构造化且易读的天然言语批评去撑持其评价成果，使评价成果更具可注释性取牢靠性；同时，它借能够“一器多用”，既能够做对齐评价也能够做嘉奖函数（Reward Model），对模子机能进一步劣化。也便是道，Auto-J的机能明显劣于诸多开源取闭源模子。

OpenAI超等对齐团队战上海交年夜GAIR尝试室的研讨大概皆表白，用AI监视AI、用强模子监视强模子的方法，大概是将来处理AI对齐成绩的一个主要标的目的。

但是，要完成Ilya Sutskever所道的“Super-LOVE-alignment”，也便是让AI无前提的爱人类，大概另有很少的路要走。

1、转载或引用本网站内容须注明原网址，并标明本网站网址(https://www.wnceo.com)。

2、本网站部分投稿来源于“网友”，文章内容请反复甄别。若涉及侵权请移步网站底部问题反馈进行反映。

3、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

4、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

收藏分享邀请

上一篇：投年轻人、投B站，还是好生意吗？下一篇：性AI机器人，到底行不行？我有一个朋友试了一下…

wangjing

0
粉丝
9321
阅读
0
回复

作者其他文章

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息

掌握市场风云动态

助力商场共赢至胜

改变你所看到的世界

资讯幻灯片

热门资讯

05-30

wangjing

OpenAI新AI硬件大爆料郭明錤：可挂在脖子

艾维与奥特曼凤凰网科技讯北京时间5月22日，针对OpenAI与苹果传奇设计师乔纳森·艾维
05-30

wangjing

5000亿美元“星际之门”项目首站：甲骨文40

金融时报（5 月 24 日）发布博文，报道称甲骨文（Oracle）计划斥资约 400 亿美元，购
05-30

wangjing

不听人类指挥OpenAI模型拒绝关闭

新华社北京5月26日电英国《每日电讯报》25日报道，美国开放人工智能研究中心(OpenAI)
05-30

wangjing

扎克伯格难留AI人才：Llama团队近八成顶尖

扎克伯格与纳德拉凤凰网科技讯北京时间5月27日，据《商业内幕》报道，Meta开源大模型
05-30

wangjing

红帽联手谷歌、NVIDIA启动llm-d开源项目，

全球开源解决方案领导者红帽公司近日宣布启动革命性开源项目llm-d，专门应对生成式AI
05-30

wangjing

一场比赛催生5000万订单：机器人产业进入“

摘要：这场机器人格斗大赛的意义，远不止于一场表演。它像一面镜子，映照出人形机器人
05-30

wangjing

谷歌CEO皮查伊回应OpenAI联手艾维：他是独

皮查伊凤凰网科技讯北京时间5月28日，据《商业内幕》报道，OpenAI上周通过近65亿美元
05-30

wangjing

腾讯混元推出AI数字人技术：一张照片配音频

凤凰网科技讯 5月28日，腾讯混元团队联合腾讯音乐天琴实验室正式发布并开源语音数字人
05-30

wangjing

谷歌25年磨一剑，苹果AI掉队有何奇怪？

谷歌创始人佩奇在25年前就开始AI布局凤凰网科技讯北京时间5月29日，《商业内幕》周三
05-30

wangjing

全球首款生成式人形机器人运动大模型发布：

今日上午，国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院，正式发布了

热门专题

OpenAI新AI硬件大爆料郭明錤：可挂在脖子

5000亿美元“星际之门”项目首站：甲骨文40

不听人类指挥OpenAI模型拒绝关闭

扎克伯格难留AI人才：Llama团队近八成顶尖

红帽联手谷歌、NVIDIA启动llm-d开源项目，

一场比赛催生5000万订单：机器人产业进入“

排行榜