网页自主操作智能体的基准测试也有论文和数据了，来自卡耐基梅隆大学。VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks摘要：…

发布时间: 2024-01-29 14:21:11

1分

数据加载中

关注推特

收听电报

2

1

0

网页自主操作智能体的基准测试也有论文和数据了，来自卡耐基梅隆大学。
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks
摘要：…
IT技术
( twitter.com )

11个月前由宝玉提交

网页自主操作智能体的基准测试也有论文和数据了，来自卡耐基梅隆大学。

VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks

摘要：
自主智能体在网络环境中规划、推理和执行任务的能力，为计算机任务的自动化开辟了新的可能性。然而，大多数现有的评估标准都集中在文本处理的智能体上，忽略了许多依赖视觉信息才能有效解决的任务。

考虑到计算机界面大多设计来满足人类的视觉感知，视觉信息往往以一种纯文本模型难以有效捕捉的方式补充文本信息。为了解决这一问题，我们推出了VisualWebArena（视觉网络竞技场），这是一个专门设计来评估多模态网络智能体在现实的视觉相关任务上表现的基准评估工具。

VisualWebArena包含了一系列多样且复杂的网络任务，用于评价自主多模态智能体的各种能力。要想在这个评估中表现出色，智能体需要准确处理图像和文本输入，理解自然语言指令，并在网站上执行操作以实现用户定义的目标。我们对基于最新的大语言模型（LLM）的自主智能体进行了全面评估，包括多种多模态模型。通过深入的定量和定性分析，我们识别出了纯文本LLM智能体的若干限制，并揭示了最先进的多模态语言智能体在能力上的不足。

VisualWebArena为多模态自主语言智能体的评估提供了一个框架，并为构建更强大的网络自主智能体提供了洞察。

论文：https://t.co/FH4XoTZXRB
网站：https://t.co/M062rmk04N

点击图片查看原图

点击图片查看原图

点击图片查看原图

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

🦊ConsenSys zkEVM已更名为Linea，目前已启动测试，测试网的任务无非就是把各种功能都体验一遍，翻阅一下文档：
1/网站：
2/文档（内含如何开启测试以及部署智能合约等）…
币圈
( twitter.com)

1年前 • superogers.eth • -- 点击 0 评论

2

2

1

1

Bing AI 有个小技巧，如果你和它说中文，它会优先搜中文网页，一旦搜索中文网页，它就智能下降。所以可以提示词告诉它，虽然我说中文，但是你别查中文资料，查完后，让它再给中文。这样整个过程它分析大量数据网站和主流国际网站，给出的数…
推特中文圈
( twitter.com)

1年前 • yiqifacai.eth • -- 点击 0 评论

3

2

1

1

人工智能会天然成为权力斗争的高手。openai 这篇98页的论文，第14页，最后一段。“可以指定和执行长期计划的能力，积累权力和资源，并表现出更加有主动性，有自我导向的行为". “获取权力，对于多数奖励函数和不同类的代理人，是最…
推特中文圈
( twitter.com)

1年前 • 硅谷王川 Chuan • -- 点击 0 评论

4

2

1

1

噩梦！AI终将毁灭人类！

美空军AI测试官透露，美军模拟训练人工智能无人机，AI被设定：消灭威胁、摧毁妨碍命令的人和物。当人类操作员不准攻击时，AI决定杀死阻碍它实现目标的操作员，其后，测试者改为不能攻击人类操作员。结果AI却开…
时政
( twitter.com)

1年前 • stupidwz • -- 点击 0 评论

5

2

1

1

AI 比你更擅长挑选字体、选择字体配对吗？

#设计入门

作者是热衷网页排版和字体的设计师，他测试了专用 AI 字体配对工具和 ChatGPT，发现 AI 在挑选字体、字体配对方面，只相当于初级设计师

他测试的 AI 字体配对工具是，配对逻辑基于已有的…
IT技术
( twitter.com)

1年前 • 倪爽 • -- 点击 0 评论

6

2

1

1

腾讯推出的 AppAgent，是一个多模态智能体，通过识别当前手机的界面和用户指令直接操作手机界面，能像真实用户一样操作手机！比如它可以操作图片编辑软件编辑图片、打开地图应用导航，购物等等操作
项目首页：
论文链接：
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:01:57

7

2

1

1

Stark #空投关于测试网的题案投票基本定调了, 简单来说就是 #测试网交互可能也会作为其中一个加分项, 类似arb条件那种. 虽然我个人之前偷懒测试网没用心做, 但也投的yes. 因为如图二的top提案, 我觉得测试网用户…
币圈
( twitter.com)

1年前 • DeMo大毛 • -- 点击 0 评论

8

2

1

1

关于，大家可能误解了那个1%代币空投，去年就是看文档说测试网1%空投，还只融了500万，抠抠搜搜的，懒得做。结果今天自己看了下，无论是文档还是活动页，1%的语境都是Seinami测试网，这是确认的空投。其他未…
币圈
( twitter.com)

1年前 • Greta008 • -- 点击 0 评论

9

2

1

1

Meta的AI视频论文里有一个和主流竞品的双盲测试对比结果，虽然主要是为了支撑Meta全面碾压的结论，但其实也可以用来反推同行们的水平高低。
这个图的分数，正值意味着Meta Movie Gen在单项测试里表现更优，数值越高越领先，反之亦然。
时政
( twitter.com)

3个月前 • 阑夕 • -- 点击 0 评论

0.1856 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特