世界总裁网 › 首页 ›人工智能 › 新闻内容

GPT-4V学会用键鼠上网人类眼睁睁看着它发帖玩游戏

发布时间: 2023-11-6 16:21| 发布者: zhangyujia| 查看: 4661| 评论: 0

摘要: GPT-4V学会自动操纵电脑，这一天终于还是到来了。只需要给GPT-4V接入鼠标和键盘，它就能根据浏览器界面上网：甚至还能快速摸清楚“播放音乐”的播放器网站和按钮，给自己来一段music：是不是有点细思极恐了？这是一 ...

GPT-4V教会主动操作电脑，那一天终究仍是到去了。

只需求给GPT-4V接进鼠标战键盘，它就可以按照阅读器界里上彀：

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

以至借能快速摸分明“播放音乐”的播放器网站战按钮，给本人去一段music：

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

是否是有面细思极恐了？

那是一个MIT本科死小哥整出去的新活，名叫GPT-4V-Act。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

只需求几个简朴的东西，GPT-4V就可以教会掌握您的键盘战鼠标，用阅读器上彀收帖、购工具以至是玩游戏。

如果用到的东西出bug了，GPT-4V以至借能意想到、并试图处理它。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

去看看那是怎样做到的。

教GPT-4V“主动上彀”

GPT-4V-Act，素质上是一个基于Web阅读器的AI多模态助脚（Chromium Copilot）。

它能够像人类一样用鼠标、键盘战屏幕“检察”网页界里，并经由过程网页中的交互按键停止下一步操纵。

要完成这类结果，除GPT-4V之外，借用到了三个东西。

一个是UI界里，可让GPT-4V“瞥见”网页截图，也能让用户取GPT-4V发作交互。

如许，GPT-4V就可以将每步运转思绪皆经由过程对话框的情势反应出去，用户去决议能否要持续让它操纵。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

另外一个是Set-of-Mark Prompting（SoM）东西，让GPT-4V教会交互的一款东西。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

那个东西由微硬创造，目标是更好天对GPT-4V停止提醒词工程。

比拟让GPT-4V间接“看图语言”，那个东西能够将图片枢纽细节拆分红差别的部门，并停止编号，让GPT-4V对症下药：

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

关于网页端也是云云，Set-of-Mark Prompting用相似的方法让GPT-4V明白从网页阅读器的哪一个部门找谜底，并停止交互。

最初，借需求用到一个主动标注器（JS DOM auto-labeler），能够将网页端一切能交互的按键标注出去，让GPT-4V决议要按哪一个。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

一套流程下去， GPT-4V不只能精确判定图片上的哪些内乱容契合需供，借能精确找到交互按键，并教会“主动上彀”。

那是个年夜项目，今朝借只完成了部门功用，包罗面击、挨字交互、主动标注等。

接下去，另有其他的一些功用要完成，比方尝尝AI挨标器（今朝网页真个交互仍是经由过程经由过程JS接心得知那里能交互，没有是AI辨认的）、和提醒用户输进具体疑息等。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

别的，做者也提到，现阶段GPT-4V-Act用法上另有一些需求留意的处所。

比方，GPT-4V-Act能够会被网页翻开后漫山遍野的弹窗小告白给“整懵了”，然后呈现交互bug。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

又比方，今朝这类弄法能够会违背OpenAI的产物利用划定：

除非API许可，不然没有得利用任何主动化或编程的办法从效劳中提与数据并输出，包罗抓与、收集搜集或收集数据提与。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

以是用的时分也要低调一面（doge）

微硬SoM做者也去围不雅

那个项目正在网上收回后，吸收了很多人的围不雅。

像是小哥用到的微硬Set-of-Mark Prompting东西的做者，便发明了那个项目：

超卓的事情！

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

另有网友提到，以至能够用去让AI本人读与考证码。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

那个正在SoM项目中提到过，GPT-4V是能胜利解读考证码的（以是当前能够借实没有明白是人仍是机械正在上彀）。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

取此同时，也有网友曾经正在设想桌里流主动化（desktop automation）的操纵了。

对此做者回应称：

AI主动标注器该当能完成那个，我也的确正在方案建造一个更通用的Copilot。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

不外今朝GPT-4V仍是要免费的，有无其他的完成办法？

做者也暗示，今朝借出有，但的确能够会测验考试Fuyu-8B大概LLaVAR如许的开源模子。

GPT-4V教会用键鼠上彀人类眼睁睁看着它收帖玩游戏

免费的主动化桌里流AI助脚，能够等待一波了。

1、转载或引用本网站内容须注明原网址，并标明本网站网址(https://www.wnceo.com)。

2、本网站部分投稿来源于“网友”，文章内容请反复甄别。若涉及侵权请移步网站底部问题反馈进行反映。

3、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

4、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

收藏分享邀请

上一篇：大模型将成企业“必需品”，服务器如何跟上算力新需求？下一篇：OpenAI史诗级更新！最强大模型炸场，128K上下文、价格暴降66.7%

zhangyujia

0
粉丝
4661
阅读
0
回复

作者其他文章

新视界 | Pico们苦等苹果头显“续命”
2023/06/08
2023全球PE论坛成功举办
2023/09/05
马斯克：科幻作品《银河系漫游指南》是我读过最有启发性的书之一
2023/10/16
纽约大学基于HoloLens 2开发AR+AI虚拟助手，提供及时音视频反馈
2023/10/16

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息

掌握市场风云动态

助力商场共赢至胜

改变你所看到的世界

资讯幻灯片

热门资讯

08-06

wangjing

智联招聘AI全托管招聘亮相WAIC：从简历筛选

7月29日，在2025世界人工智能大会（WAIC）现场，智联招聘展台展示的AI全托管招聘系统
08-06

wangjing

7月美国企业总共裁员超6.2万人：科技业首当

IT之家 8 月 1 日消息，据彭博社 7 月 31 日报道，裁员咨询机构 Challenger, Gray Ch
08-06

wangjing

库克罕见召开员工大会：AI不容错过，苹果能

库克凤凰网科技讯北京时间8月2日，据彭博社报道，苹果公司CEO蒂姆·库克(Tim Cook)在
08-06

wangjing

全球首批AI数字员工亮相，迎来规模化落地拐

AI数字员工元年开启，从亮相到规模化落地。今年，百度智能云的电话销售岗位来了一位“
08-06

wangjing

中国特供芯片恢复销售了？AMD CEO苏姿丰：

苏姿丰凤凰网科技讯北京时间8月6日，据彭博社报道，AMD周二警告称，恢复在中国销售芯
08-06

wangjing

以“疗愈生态”重构身心灵平衡，让自然与文

在快节奏的现代生活中，“焦虑”“疲惫”成为许多人共同的情绪标签，而“疗愈”正逐渐
05-30

wangjing

OpenAI新AI硬件大爆料郭明錤：可挂在脖子

艾维与奥特曼凤凰网科技讯北京时间5月22日，针对OpenAI与苹果传奇设计师乔纳森·艾维
05-30

wangjing

5000亿美元“星际之门”项目首站：甲骨文40

金融时报（5 月 24 日）发布博文，报道称甲骨文（Oracle）计划斥资约 400 亿美元，购
05-30

wangjing

不听人类指挥OpenAI模型拒绝关闭

新华社北京5月26日电英国《每日电讯报》25日报道，美国开放人工智能研究中心(OpenAI)
05-30

wangjing

扎克伯格难留AI人才：Llama团队近八成顶尖

扎克伯格与纳德拉凤凰网科技讯北京时间5月27日，据《商业内幕》报道，Meta开源大模型