国外小哥利用GPT-4V,开拓了一个工具,让AI操纵浏览器上网!

乃至打开了一个音乐播放网站,给自己点了一首歌!

下面便是小哥的示例视频。

视频加载中...

GPT4VAct让AI学会上网冲浪还给自己点个歌

这个工具是不是很神奇?!
它叫GPT-4V-Act。

它是一个基于Web浏览器的AI多模态助手,能够结合GPT-4V (ision)和网页界面,实现人机交互的无缝切换。

它的设计目的是,利用GPT-4V (ision)的强大能力,为用户供应更多样的界面和功能,办理新的任务,创造新的体验。

GPT-4V (ision)的上风在于,它不须要针对每个任务进行专门的演习,只须要给它一个得当的提示,它就可以自动适应不同的任务。
这使得它具有很强的通用性和灵巧性,可以运用于各种领域和场景。

GPT-4V-Act是如何事情的?

GPT-4V-Act利用了GPT-4V (ision)和一种叫做Set-of-Mark Prompting的技能,以及一个定制的自动标注器。

这个自动标注器可以给每个可交互的网页元素分配一个唯一的数字ID。

通过将一个任务和一个截图作为输入,GPT-4V-Act可以推断出须要实行的下一步动作。

对付鼠标/键盘的输出,它可以通过数字标签找到精确的像素坐标。

小哥的工具已经开源,大家可以上网高下载体验。

代码地址:

https://github.com/ddupont808/GPT-4V-Act