SeeAct:一个基于GPT-4V通用网络代理
它可以在多种不同网站上识别网页上各种元素,执行各种不同的任务,
例如,在苹果官网上比较iPhone 15 Pro Max和iPhone 13 Pro Max的区别,并给出购买建议。
在旅游网站上搜索航班信息等。
SeeAct展示了从推测性规划、网页内容推理到错误自我纠正等多种能力。
SeeAct的创新之处在于它结合了多模态模型的视觉感知能力和自然语言处理能力,使其能够理解和操作网页内容。
SeeAct的主要能力:
1、执行网站任务:SeeAct能够在任何网站上执行特定任务,例如在电商网站上比较产品、在旅游网站上搜索航班信息等。
2、动作生成:模拟人类浏览网页,分析任务和之前的动作,生成动作描述。它首先进行动作生成,即产生完成任务所需每一步的文本描述。例如,如果任务是在苹果官网上比较两款iPhone,SeeAct会生成如“导航到iPhone分类”这样的动作描述。
3、动作定位:接着进行动作定位,识别网页上与动作描述相对应的HTML元素和操作。例如,它会找到并识别“iPhone”按钮,并执行点击操作。
4、多种能力展示:SeeAct展示了多种能力,包括推测性规划(预测接下来的步骤)、网页内容推理(理解网页上的信息)和错误自我纠正(识别并纠正之前的错误)。
5、适用于多种网站:SeeAct不仅限于特定类型的网站,它能够适应并在多种不同的网站上执行任务。
项目及演示:https://t.co/p5M3IBZHom
论文:https://t.co/CVhzV8UYcz
GitHub:https://t.co/uMzYqnXbiF