我们经常看到一些产品演示用AI规划旅行行程,看着很酷,但是你知道成功率是多少吗?
按照这篇论文上的数据,目前的语言智能体还不足以应对这样复杂的规划任务,即便是GPT-4也只达到了0.6%的成功率!
不知道GPT-5会不会好点……
原推翻译:
规划能力是人类智慧的重要标志,它是基于多种能力进化而来的成就,包括:
迭代使用各种工具收集信息并做决策
在工作记忆或实体设备上记录中途方案进行思考
基于世界模型,通过模拟运行探索备选方案
以及其他许多能力,如试错学习、基于案例的推理、回溯等
长久以来,研究人员致力于开发能模拟人类规划能力的AI智能体,但因缺少人类规划所需的许多认知基础,这些努力通常局限于受约束的环境中。AI智能体能在人类所处的广泛无约束环境中稳定工作,这一目标仍然遥不可及。
此时,语言智能体闪亮登场,成为新时代的焦点。2023年,以大语言模型(LLM)为动力的语言智能体(亦称为LLM/AI/自主智能体)成为热门关键词,预计在2024年将广泛应用于现实世界。它们以语言作为思考和交流的媒介,展示了诸多引人注目的能力,如使用工具、进行各种形式的推理,这些能力可能补充了早期AI智能体所缺失的某些认知基础。那么,这些智能体是否能够承担起先前智能体难以实现的更复杂规划任务呢?
为了深入研究这一问题,我们提出了“旅行规划器”(TravelPlanner),一个新的规划基准,专注于常见的旅行规划这一现实世界场景。即便对人类而言,旅行规划也是一项充满挑战、耗时的任务,但在有适当工具和足够时间的情况下,大多数人都能成功完成它。有趣的是,虽然人类难以制定出好的旅行计划(例如,我们的专业注释员平均需要12分钟来规划一次旅行),但我们却能较容易地评判AI生成的计划是否合格。因此,如果AI智能体能够完成此任务,它将成为一个极其有价值的工具,以可验证和可信的方式帮助我们节省时间。
“旅行规划器”提供了一个包含约400万条从互联网上爬取的数据条目的丰富沙盒环境,可通过6种工具访问。我们还精心准备了1,225个不同的用户查询(及其参考计划),每个查询都有不同的约束组合。
当前的语言智能体能否规划旅行呢?
简而言之,尚未达到。我们对最先进的大语言模型(如GPT-4、Gemini、Mixtral等)和规划策略(如ReAct、Reflexion等)进行了全面评估,但最高成功率仅为0.6%(1000次尝试中有6次成功)。语言智能体难以专注于任务、正确使用工具收集信息或同时处理多个约束。
然而,值得注意的是,语言智能体尝试解决如此复杂问题本身就是一项重要进步。我们希望“旅行规划器”能为未来的语言智能体提供一个充满挑战而有意义的测试平台,帮助它们逐步达到在复杂环境中进行人类级别规划的能力。
📌 https://t.co/SiFBC5F2Z3
📌 论文:https://t.co/Wpf90cRZGN
📌 代码:https://t.co/N1d83grFor
📌 数据:https://t.co/8gPAYqRuT9