价值无处不在,世界财经资讯媒体平台。
手机版
访问手机版
世界总裁网 首页 人工智能 新闻内容

GPT-4V学会用键鼠上网 人类眼睁睁看着它发帖玩游戏

发布时间: 2023-11-6 16:21| 发布者: zhangyujia| 查看: 1757| 评论: 0

摘要: GPT-4V学会自动操纵电脑,这一天终于还是到来了。只需要给GPT-4V接入鼠标和键盘,它就能根据浏览器界面上网:甚至还能快速摸清楚“播放音乐”的播放器网站和按钮,给自己来一段music:是不是有点细思极恐了?这是一 ...
 GPT-4V教会主动操作电脑,那一天终究仍是到去了。

只需求给GPT-4V接进鼠标战键盘,它就可以按照阅读器界里上彀:

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

以至借能快速摸分明“播放音乐”的播放器网站战按钮,给本人去一段music:

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

是否是有面细思极恐了?

那是一个MIT本科死小哥整出去的新活,名叫GPT-4V-Act。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

只需求几个简朴的东西,GPT-4V就可以教会掌握您的键盘战鼠标,用阅读器上彀收帖、购工具以至是玩游戏。

如果用到的东西出bug了,GPT-4V以至借能意想到、并试图处理它。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

去看看那是怎样做到的。

教GPT-4V“主动上彀”

GPT-4V-Act,素质上是一个基于Web阅读器的AI多模态助脚(Chromium Copilot)。

它能够像人类一样用鼠标、键盘战屏幕“检察”网页界里,并经由过程网页中的交互按键停止下一步操纵。

要完成这类结果,除GPT-4V之外,借用到了三个东西。

一个是UI界里,可让GPT-4V“瞥见”网页截图,也能让用户取GPT-4V发作交互。

如许,GPT-4V就可以将每步运转思绪皆经由过程对话框的情势反应出去,用户去决议能否要持续让它操纵。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

另外一个是Set-of-Mark Prompting(SoM)东西,让GPT-4V教会交互的一款东西。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

那个东西由微硬创造,目标是更好天对GPT-4V停止提醒词工程。

比拟让GPT-4V间接“看图语言”,那个东西能够将图片枢纽细节拆分红差别的部门,并停止编号,让GPT-4V对症下药:

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

关于网页端也是云云,Set-of-Mark Prompting用相似的方法让GPT-4V明白从网页阅读器的哪一个部门找谜底,并停止交互。

最初,借需求用到一个主动标注器(JS DOM auto-labeler),能够将网页端一切能交互的按键标注出去,让GPT-4V决议要按哪一个。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

一套流程下去, GPT-4V不只能精确判定图片上的哪些内乱容契合需供,借能精确找到交互按键,并教会“主动上彀”。

那是个年夜项目,今朝借只完成了部门功用,包罗面击、挨字交互、主动标注等。

接下去,另有其他的一些功用要完成,比方尝尝AI挨标器(今朝网页真个交互仍是经由过程经由过程JS接心得知那里能交互,没有是AI辨认的)、和提醒用户输进具体疑息等。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

别的,做者也提到,现阶段GPT-4V-Act用法上另有一些需求留意的处所。

比方,GPT-4V-Act能够会被网页翻开后漫山遍野的弹窗小告白给“整懵了”,然后呈现交互bug。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

又比方,今朝这类弄法能够会违背OpenAI的产物利用划定:

除非API许可,不然没有得利用任何主动化或编程的办法从效劳中提与数据并输出,包罗抓与、收集搜集或收集数据提与。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

以是用的时分也要低调一面(doge)

微硬SoM做者也去围不雅

那个项目正在网上收回后,吸收了很多人的围不雅。

像是小哥用到的微硬Set-of-Mark Prompting东西的做者,便发明了那个项目:

超卓的事情!

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

另有网友提到,以至能够用去让AI本人读与考证码。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

那个正在SoM项目中提到过,GPT-4V是能胜利解读考证码的(以是当前能够借实没有明白是人仍是机械正在上彀)。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

取此同时,也有网友曾经正在设想桌里流主动化(desktop automation)的操纵了。

对此做者回应称:

AI主动标注器该当能完成那个,我也的确正在方案建造一个更通用的Copilot。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

不外今朝GPT-4V仍是要免费的,有无其他的完成办法?

做者也暗示,今朝借出有,但的确能够会测验考试Fuyu-8B大概LLaVAR如许的开源模子。

GPT-4V教会用键鼠上彀 人类眼睁睁看着它收帖玩游戏

免费的主动化桌里流AI助脚,能够等待一波了。

  • 0
    粉丝
  • 1757
    阅读
  • 0
    回复

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息
掌握市场风云动态
助力商场共赢至胜
改变你所看到的世界
热门资讯
排行榜

关注我们: 微信订阅&APP下载

发现价值 创造价值

WNCEO.COM

世界总裁网版权所有 未经世界总裁网书面授权禁止复制或建立镜像内容

Email: service@wnceo.com 电话: 010-86398086 / 400-848-6648

地址: 北京市朝阳区广渠路36号首城国际大厦10层 邮编: 100010

Copyright  ©2008-2024 世界总裁网All rights reserved. 工信部许可备案号:京ICP备12045339号-2