读论文2503.16416-Survey on Evaluation of LLM-based Agents
AI
Survey on Evaluation of LLM-based Agents
Abstract
The emergence of LLM-based agents represents a paradigm shift in AI, enabling
autonomous systems to plan, reason, use tools, and maintain memory while
interacting with dynamic environments. This paper provides the first
comprehensive survey of evaluation methodologies for these increasingly capable
agents. We systematically analyze evaluation benchmarks and frameworks across
four critical dimensions: (1) fundamental agent capabilities, including
planning, tool use, self-reflection, and memory; (2) application-specific
benchmarks for web, software engineering, scientific, and conversational
agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating
agents. Our analysis reveals emerging trends, including a shift toward more
realistic, challenging evaluations with continuously updated benchmarks. We
also identify critical gaps that future research must address-particularly in
assessing cost-efficiency, safety, and robustness, and in developing
fine-grained, and scalable evaluation methods. This survey maps the rapidly
evolving landscape of agent evaluation, reveals the emerging trends in the
field, identifies current limitations, and proposes directions for future
research.
FAQ
论文试图解决什么问题?
论文试图解决的问题是如何全面评估基于大型语言模型(LLM)的智能代理(agents)的能力和性能。具体来说,论文提供了第一个关于这些日益强大的代理的评估方法的全面调查。论文系统地分析了评估基准和框架,涵盖了四个关键维度:
- 基本代理能力:包括规划、工具使用、自我反思和记忆。
- 应用特定的基准:针对网络代理、软件工程代理、科学代理和对话代理的基准。
- 通用代理的基准:评估代理在不同任务中的表现。
- 评估框架:用于评估代理的框架。
论文揭示了当前评估方法中的新兴趋势,包括向更现实、更具挑战性的评估转变,以及基准的持续更新。同时,论文也指出了未来研究需要解决的关键差距,特别是在评估成本效率、安全性和鲁棒性方面,以及开发细粒度和可扩展的评估方法。
通过这项调查,论文旨在为研究人员和实践者提供对当前代理评估状态的全面理解,并突出未来创新的关键领域。
这是否是一个新的问题?
根据提供的文献内容,这个问题并不是一个新的问题。文献中已经详细讨论了LLM-based agents的评估方法、基准测试和框架,涵盖了多个关键维度和应用领域。具体来说,文献系统地分析了评估基准和框架,包括基本代理能力、特定应用基准、通用代理基准以及评估框架。此外,文献还指出了当前评估方法的局限性,并提出了未来研究的方向。因此,这个问题已经在文献中得到了充分的讨论和分析。
这篇文章要验证一个什么科学假设?
这篇文章并没有明确提出一个具体的科学假设来验证。相反,它是一篇综述性文章,旨在系统地分析和总结当前用于评估基于大型语言模型(LLM)的智能代理(agents)的方法和基准测试。文章的主要目标是:
全面调查评估方法:文章系统地分析了评估LLM-based agents的基准测试和框架,涵盖了四个关键维度:基本代理能力、特定应用基准、通用代理基准和评估框架。
揭示新兴趋势:文章指出了评估方法中的一些新兴趋势,例如向更现实和更具挑战性的评估转变,以及基准测试的持续更新。
识别关键差距:文章还指出了未来研究需要解决的关键差距,特别是在评估成本效率、安全性和鲁棒性方面,以及开发细粒度和可扩展的评估方法。
提出未来研究方向:文章为未来的研究提出了方向,以推动LLM-based agents的评估方法的发展。
因此,这篇文章的主要贡献在于提供了一个全面的评估方法综述,并为未来的研究提供了方向,而不是验证一个具体的科学假设。
有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
相关研究及归类
根据文献内容,LLM-based Agents 的评估研究可以分为以下几个主要方向:
基础能力评估:
- 规划与多步推理:包括任务分解、状态跟踪、自我纠正、因果理解和元规划等能力。
- 函数调用与工具使用:涉及意图识别、函数选择、参数映射、函数执行和响应生成等子任务。
- 自我反思:评估模型是否能够通过反馈动态更新其信念并调整推理步骤。
- 记忆机制:包括短期记忆和长期记忆,用于处理长上下文和信息检索。
应用特定评估:
- Web Agents:评估在网页环境中完成任务的能力,如导航、任务自动化和遵守安全规则。
- 软件工程 Agents:评估代码生成、问题解决和测试生成等能力。
- 科学 Agents:评估科学推理、实验设计、代码生成和同行评审生成等能力。
- 对话 Agents:评估多轮对话和任务导向对话的能力。
通用 Agents 评估:
- 通用能力评估:评估多步推理、交互式问题解决和工具使用等能力。
- 操作系统环境评估:评估在真实计算机系统中导航和执行复杂任务的能力。
- 专业环境评估:评估在模拟专业环境(如软件公司或客户关系管理系统)中完成任务的能力。
评估框架:
- 开发框架:如 LangSmith、Langfuse、Google Vertex AI 等,支持多步推理、轨迹分析和工具使用等能力的评估。
- Gym-like 环境:如 BrowserGym、MLGym 和 SWE-Gym,提供受控的交互式环境用于评估。
值得关注的研究员
以下是一些在该领域内值得关注的研究员及其贡献:
- Asaf Yehudai(耶路撒冷希伯来大学 & IBM Research):本文的主要作者之一,专注于 LLM-based Agents 的评估方法。
- Arman Cohan(耶鲁大学):在科学 Agents 和通用 Agents 评估方面有重要贡献。
- Michal Shmueli-Scheuer(IBM Research):在对话 Agents 和 Web Agents 评估方面有深入研究。
- Yilun Zhao(耶鲁大学):在规划与多步推理评估方面有显著贡献。
- Roy Bar-Haim(IBM Research):在记忆机制和自我反思评估方面有重要研究。
- Guy Uziel(IBM Research):在工具使用和函数调用评估方面有深入研究。
- Lilach Eden(IBM Research):在应用特定评估(如 Web Agents 和软件工程 Agents)方面有显著贡献。
总结
LLM-based Agents 的评估研究涵盖了从基础能力到应用特定能力的广泛领域。研究人员通过开发新的评估方法和框架,不断推动这一领域的发展。上述提到的研究员在该领域内做出了重要贡献,值得进一步关注。
论文中提到的解决方案之关键是什么?
论文中提到的解决方案的关键在于以下几个方面:
多步推理和规划:LLM-based agents需要具备多步推理和规划的能力,以分解复杂任务并制定执行路径。这包括任务分解、状态跟踪、自我纠正、因果理解和元规划等能力。
工具使用和函数调用:agents需要能够调用外部工具和函数,以执行计算、访问外部知识并与环境互动。这包括意图识别、工具选择、参数映射、函数执行和响应生成等子任务。
自我反思:agents应具备自我反思的能力,通过交互反馈改进其推理过程,减少多步交互中的错误。这要求模型能够理解反馈并动态更新其信念,以执行调整后的行动或推理步骤。
记忆机制:agents需要具备短期和长期记忆机制,以处理长上下文和信息检索,支持在动态场景中的推理和规划。这包括上下文优化、实时决策和学习等能力。
应用特定的评估:针对不同类型的agents(如web agents、软件工程agents、科学agents和对话agents),需要开发专门的评估框架和性能指标,以评估其在特定应用中的表现。
通用agents的评估:评估通用agents的能力,包括多步推理、交互式问题解决和工具使用等,需要开发综合性的评估基准和排行榜。
评估框架:开发集成到agents开发环境中的评估框架,支持在整个开发周期内对agents进行评估,包括最终响应评估、逐步评估和轨迹评估等。
实时和动态评估:随着LLM和agents的快速发展,评估方法需要具备适应性和持续更新的能力,以保持评估的相关性和挑战性。
细粒度评估:开发标准化的细粒度评估指标,以捕捉agents任务执行的轨迹,提供更丰富的反馈,并指导有针对性的改进。
成本效率和安全合规:将成本效率作为核心指标,跟踪token使用、API费用、推理时间和总体资源消耗。同时,开发多维度的安全基准,模拟现实场景,确保agents不仅有效,而且安全可靠。
这些关键点共同构成了对LLM-based agents进行全面评估的基础,确保其在现实世界应用中的有效性和安全性。
论文中的实验是如何设计的?
论文中的实验设计主要集中在评估LLM-based agents(基于大型语言模型的代理)的各个方面。以下是实验设计的主要部分:
基础能力评估(§2):
- 规划与多步推理(§2.1):使用多个基准测试来评估代理的规划能力,如AQUA-RAT、HotpotQA、ARC、StrategyQA、GSM8K、MATH、Game of 24、MINT、PlanBench、FlowBench、FOLIO、P-FOLIO、MultiRC、MUSR、BBH、ToolEmu、AutoPlanBench、ACPBench和Natural Plan。
- 函数调用与工具使用(§2.2):评估代理调用外部工具的能力,使用基准测试如ToolAlpaca、APIBench、ToolBench、BFCL、API-Bank、NexusRaven、Seal-Tools、ComplexFuncBench、ToolSandbox、RestBench、APIGen、StableToolBench和NESTFUL。
- 自我反思(§2.3):评估代理通过反馈进行自我反思和改进的能力,使用基准测试如LLF-Bench、LLM-Evolve和Reflection-Bench。
- 记忆(§2.4):评估代理的记忆机制,使用基准测试如NarrativeQA、QMSum、QUALITY、RAISE、ReadAgent、MemGPT、LoCoMo、A-MEM、StreamBench和LTMbenchmark。
应用特定代理评估(§3):
- Web代理(§3.1):评估代理在网页上的任务完成能力,使用基准测试如MiniWob、MiniWoB++、WebShop、Mind2web、WebVoyager、WebLinX、WebArena、VisualWebArena、MMInA、AssistantBench、WebCanvas、ST-WebAgentBench、WorkArena和WorkArena++。
- 软件工程代理(§3.2):评估代理在软件工程任务中的表现,使用基准测试如HumanEval、SWE-bench、SWE-bench Verified、SWE-bench Lite、SWE-bench+、SWE-bench Multimodal、TDD-Bench Verified、SWT-Bench、ITBench和SWELancer。
- 科学代理(§3.3):评估代理在科学研究和实验设计中的能力,使用基准测试如ScienceQA、QASPER、MS2、ScienceWorld、SUPER、Ideation、AAAR-1.0、ScienceAgentBench、CORE-Bench、SciCode、MLGym-Bench、DiscoveryWorld和LAB-Bench。
- 对话代理(§3.4):评估代理在对话任务中的表现,使用基准测试如ABCD、MultiWOZ、SMCalFlow、ALMITA、τ-Bench和IntellAgent。
通用代理评估(§4):
- 评估代理在多种任务中的通用能力,使用基准测试如GAIA、AgentBench、Galileo’s Agent Leaderboard、OSWorld、AppWorld、OmniACT、TheAgentCompany、CRMArena和HAL。
代理评估框架(§5):
- 介绍用于评估代理的框架,如Databricks Mosaic AI、Galileo Agentic、Vertex AI Gen AI、LangSmith、Langfuse、Patronus AI、LangChain AgentEvals、MLGym、BrowserGym和SWE-Gym。
讨论(§6):
- 当前趋势(§6.1):讨论了评估方法向更现实和更具挑战性的转变,以及动态更新的基准测试。
- 新兴方向(§6.2):提出了未来研究的方向,如细粒度评估、成本与效率指标、扩展与自动化、安全性与合规性。
通过这些实验设计,论文系统地评估了LLM-based agents在不同领域和任务中的表现,并指出了当前评估方法的局限性和未来的改进方向。
用于定量评估的数据集是什么?代码有没有开源?
根据文献内容,用于定量评估LLM-based agents的数据集和基准测试(benchmarks)在多个领域都有详细描述。以下是一些主要的数据集和基准测试:
Planning and Multi-Step Reasoning:
- AQUA-RAT (Ling et al., 2017)
- HotpotQA (Yang et al., 2018)
- ARC (Clark et al., 2018a)
- StrategyQA (Geva et al., 2021)
- GSM8K (Cobbe et al., 2021)
- MATH (Hendrycks et al., 2021b)
- Game of 24 (Yao et al., 2023)
- MINT (Wang et al., 2023)
- PlanBench (Valmeekam et al., 2023)
- FlowBench (Xiao et al., 2024)
- FOLIO (Han et al., 2022)
- P-FOLIO (Han et al., 2024)
- MultiRC (Khashabi et al., 2018)
- MUSR (Sprague et al., 2023)
- BBH (Suzgun et al., 2022)
- ToolEmu (Ruan et al., 2023)
- AutoPlanBench (Stein et al., 2023)
- ACPBench (Kokel et al., 2024)
- Natural Plan (Zheng et al., 2024)
Function Calling & Tool Use:
- BFCL (Yan et al., 2024)
- ToolBench (Qin et al., 2023)
- ToolAlpaca (Tang et al., 2023)
- APIBench (Patil et al., 2025)
- API-Bank (Li et al., 2023)
- NexusRaven (team, 2023)
- Seal-Tools (Wu et al., 2024b)
- ComplexFuncBench (Zhong et al., 2025)
- ToolSandbox (Lu et al., 2024)
- RestBench (Song et al., 2023)
- APIGen (Liu et al., 2024c)
- StableToolBench (Guo et al., 2024)
- NESTFUL (Basu et al., 2024b)
Self-Reflection:
- LLF-Bench (Cheng et al., 2023)
- LLM-Evolve (You et al., 2024)
- Reflection-Bench (Li et al., 2024)
Memory:
- NarrativeQA (Koˇcisk`y et al., 2018)
- QMSum (Zhong et al., 2021)
- QUALITY (Pang et al., 2021)
- RAISE (Liu et al., 2024a)
- ReadAgent (Lee et al., 2024)
- MemGPT (Packer et al., 2024)
- LoCoMo (Maharana et al., 2024)
- A-MEM (Xu et al., 2025)
- StreamBench (Wu et al., 2024a)
- LTMbenchmark (Castillo-Bolado et al., 2024a)
Web Agents:
- MiniWob (Shi et al., 2017)
- MiniWoB++ (Liu et al., 2018)
- WebShop (Yao et al., 2022)
- Mind2web (Deng et al., 2023)
- WebVoyager (He et al., 2024)
- WebLinX (Lù et al., 2024)
- WebArena (Zhou et al., 2023)
- VisualWebArena (Koh et al., 2024)
- MMInA (Zhang et al., 2024)
- AssistantBench (Yoran et al., 2024)
- WebCanvas (Pan et al., 2024b)
- ST-WebAgentBench (Levy et al., 2024)
- WorkArena (Drouin et al., 2024)
- WorkArena++ (Boisvert et al., 2025)
Software Engineering Agents:
- HumanEval (Chen et al., 2021b)
- SWE-bench (Jimenez et al., 2023)
- SWE-bench Verified (OpenAI, 2024)
- SWE-bench Lite (SWE-bench Lite, 2024)
- SWE-bench+ (Aleithan et al., 2024)
- SWE-bench Multimodal (Yang et al., 2024)
- TDD-Bench Verified (Ahmed et al., 2024)
- SWT-Bench (Mündler et al., 2024)
- ITBench (Jha et al., 2025)
- SWELancer (Miserendino et al., 2025)
Scientific Agents:
- ScienceQA (Lu et al., 2022)
- QASPER (Dasigi et al., 2021)
- MS2 (DeYoung et al., 2021)
- ScienceWorld (Wang et al., 2022a)
- SUPER (Bogin et al., 2024)
- Ideation (Si et al., 2025)
- AAAR-1.0 (Lou et al., 2025)
- ScienceAgentBench (Chen et al., 2024)
- CORE-Bench (Siegel et al., 2024)
- SciCode (Tian et al., 2024b)
- MLGym-Bench (Nathani et al., 2025)
- DiscoveryWorld (Jansen et al., 2024)
- LAB-Bench (Laurent et al., 2024)
Conversational Agents:
- ABCD (Chen et al., 2021a)
- MultiWOZ (Budzianowski et al., 2018)
- SMCalFlow (Andreas et al., 2020)
- ALMITA (Arcadinho et al., 2024)
- τ-Bench (Yao et al., 2024)
- IntellAgent (Levi and Kadar, 2025a)
- LTM (Castillo-Bolado et al., 2024b)
Generalist Agents:
- GAIA (Mialon et al., 2023)
- AgentBench (Liu et al., 2023b)
- Galileo’s Agent Leaderboard (Bhavsar, 2025)
- OSWorld (Xie et al., 2024)
- AppWorld (Trivedi et al., 2024)
- OmniACT (Kapoor et al., 2024a)
- TheAgentCompany (Xu et al., 2024)
- CRMArena (Huang et al., 2025)
- HAL (Stroebl et al., 2025)
Frameworks for Agent Evaluation:
- Databricks Mosaic AI (Databricks, 2023)
- Galileo Agentic (Galileo, 2025)
- Vertex AI Gen AI (Google Cloud, 2025)
- LangSmith (LangChain, 2023)
- Langfuse (Langfuse, 2023)
- Patronus AI (Patronus AI, Inc., 2023)
- LangChain AgentEvals (LangChain, 2025)
- MLGym (Nathani et al., 2025)
- BrowserGym (Chezelles et al., 2024)
- SWE-Gym (Pan et al., 2024a)
关于这些数据集和基准测试的开源情况,文献中并未明确提到所有数据集和基准测试的开源状态。然而,一些基准测试和框架(如LangSmith、Langfuse、Google Vertex AI、Patronus AI等)在文献中提到了它们的开源或公开可用性。具体是否开源,建议查阅相关基准测试和框架的官方文档或GitHub页面以获取最新信息。
论文中的实验及结果有没有很好地支持需要验证的科学假设?
论文《Survey on Evaluation of LLM-based Agents》主要是一篇综述性文章,旨在系统地分析和总结当前对基于大语言模型(LLM)的智能体的评估方法和基准测试。因此,它并没有提出新的科学假设,而是对现有研究进行了全面的回顾和总结。
论文的主要贡献:
- 系统化分析:论文对LLM-based agents的评估方法进行了系统化的分类和分析,涵盖了四个关键维度:基础能力评估、应用特定评估、通用智能体评估以及评估框架。
- 趋势总结:论文总结了当前评估方法的发展趋势,例如向更现实、更具挑战性的评估转变,以及持续更新的基准测试。
- 未来研究方向:论文指出了当前评估方法的不足,并提出了未来研究的方向,例如在成本效率、安全性和鲁棒性方面的评估,以及开发更细粒度和可扩展的评估方法。
实验及结果:
由于这是一篇综述性文章,论文本身并没有进行新的实验,而是基于已有研究的实验结果进行分析和总结。论文引用了大量相关研究,列举了多个基准测试和评估框架,并分析了这些基准测试在不同应用场景下的表现。例如:
- 基础能力评估:论文引用了多个基准测试(如GSM8K、MATH、HotpotQA等)来评估智能体的规划、工具使用、自我反思和记忆能力。
- 应用特定评估:论文讨论了在Web、软件工程、科学和对话等领域的评估基准,如WebShop、SWE-bench、ScienceQA等。
- 通用智能体评估:论文还介绍了评估通用智能体的基准测试,如GAIA、AgentBench等。
是否支持科学假设:
由于论文没有提出新的科学假设,而是对现有研究进行总结和分析,因此它并没有直接验证某个具体的科学假设。然而,论文通过对现有研究的系统化分析,支持了以下观点:
1. 评估方法的多样性:当前存在多种评估方法,适用于不同的应用场景和智能体能力。
2. 评估的挑战:现有的评估方法在某些方面(如成本效率、安全性、鲁棒性)仍存在不足,需要进一步研究。
3. 未来研究方向:论文提出的未来研究方向为后续研究提供了有价值的参考。
结论:
论文通过对现有研究的系统化分析,很好地总结了当前LLM-based agents评估方法的现状和发展趋势,并为未来的研究提供了方向。虽然没有直接验证新的科学假设,但它为相关领域的研究者提供了全面的参考和指导。
这篇论文到底有什么贡献?
这篇论文的主要贡献在于提供了对基于大型语言模型(LLM)的智能代理(agents)评估方法的首次全面调查。具体来说,论文的贡献包括以下几个方面:
系统化的评估维度分析:论文系统地分析了评估基于LLM的智能代理的四个关键维度:
- 基本代理能力:包括规划、工具使用、自我反思和记忆。
- 应用特定的基准:针对网络代理、软件工程代理、科学代理和对话代理的评估基准。
- 通用代理的基准:评估代理在不同任务中的多样化能力。
- 评估框架:为代理开发者提供的评估框架,支持整个开发周期的评估。
揭示新兴趋势:论文揭示了评估方法中的新兴趋势,包括向更现实、更具挑战性的评估转变,以及使用持续更新的基准。
识别关键差距:论文指出了未来研究需要解决的关键差距,特别是在评估成本效率、安全性和鲁棒性方面,以及开发细粒度和可扩展的评估方法。
为不同受众提供指导:论文为四类关键受众提供了指导:
- LLM代理开发者:帮助他们评估系统的能力。
- 领域应用实践者:帮助他们在特定领域部署代理。
- 基准开发者:帮助他们解决评估挑战。
- AI研究人员:帮助他们广泛研究代理的当前能力、风险和局限性。
未来研究方向:论文提出了未来研究的方向,包括推进细粒度评估、成本和效率指标、扩展和自动化评估、以及安全性和合规性评估。
通过这些贡献,这篇论文为研究人员和实践者提供了一个全面的视角,帮助他们理解和评估基于LLM的智能代理的能力和局限性,并指导未来的研究和开发工作。
研究的下一步呢?有什么工作可以继续深入?
根据文献内容,研究的下一步可以围绕以下几个方向进行深入:
细粒度评估:
- 当前许多基准测试依赖于粗粒度的端到端成功指标,虽然这些指标对于评估整体性能有用,但在诊断特定代理失败时显得不足。未来的研究应开发标准化的细粒度评估指标,以捕捉代理任务执行的轨迹,提供更丰富的反馈并指导有针对性的改进。
成本和效率指标:
- 当前的评估往往优先考虑准确性,而忽略了成本和效率的测量。未来的评估框架应将成本效率作为核心指标,跟踪诸如令牌使用、API费用、推理时间和总体资源消耗等因素,以开发出在性能和操作可行性之间取得平衡的代理。
扩展和自动化:
- 依赖静态人工注释的评估方法存在显著的扩展性挑战,因为这些方法可能资源密集且容易过时。未来的研究方向包括利用合成数据生成技术创建多样化和现实的任务场景,以及通过使用基于LLM的代理作为评估者来自动化评估过程,从而减少对资源密集型人工注释的依赖。
安全性和合规性:
- 当前基准测试在安全性、可信度和政策合规性方面的关注有限。未来的研究应优先开发多维度的安全基准测试,模拟现实世界场景,特别是在多代理场景中可能出现的风险,以确保代理不仅有效而且安全可靠。
实时和动态评估:
- 随着LLM和代理的快速发展,评估方法需要具备适应性和持续更新的能力。未来的研究应开发动态评估方法,如实时更新的基准测试和持续改进的评估框架,以保持评估的相关性和挑战性。
通过在这些方向上的深入研究,可以进一步推动LLM代理的评估和发展,确保其在现实世界应用中的有效性和安全性。