
LLM代理正在从“行动派系”中“在纸上谈论”的文本生成器出现,该工具可以做出独立决策并执行复杂的任务。他们可以实时使用工具并进行社交,从而迈向通用人工智能(AAGI)。但是,这种“自主权”也带来了新的问题:代理在自主接触中是否安全?研究人员为这个问题提出了许多基准,试图评估现有代理的安全性。但是,这些基准面临着一个常见的问题:没有足够有效且准确的检查员。传统的LLM安全评估在生成审查的简单内容方面表现良好,但是与环境和DESI处理过程的复杂互动“代理”的代理“无法触及”。现有的代理评估方法基于政策或依赖大型模型,面临着“不理解”,“不完全可见”和“不可见的问题”:难以获得轻度的风险,忽略小问题的积累,对模糊政策感到困惑。基于规则的评估方法通常仅依赖于环境变量中的变化来确定它是否安全,并且很难正确地确定基于较大模型的大型模型,无论是在紧密挑战的情况下,是否难以正确确定代理商在接触过程中引入的细微风险;无论是最智能的模型还是最精致的模型,无论是最精致的模型还是既定模型的既定。在纽约大学,伊利诺伊大学,伊利诺伊大学,伊利诺伊大学,KTH皇家技术学院,悉尼大学和国立大学新加坡大学启动训练,没有培训,没有培训,记忆水平,从而使LLM分析能够达到人类专业的安全技能,TUDITOR:LLM代理链接链接的人级安全与安全分析:https://arxiv.org/abs/2506.00641代码/项目homepage:https://github.com/astarojth/agentauditor-sebench概述为了使LLM评估者能够学习和理解与人类类似的复杂互动记录的能力,最终提高了LLM评估者的性能。这是通过三个主要阶段实现的:1。特色内存构建:将与代理的原始和混乱的关联记录更改为结构化和矢量化的“实验数据库”。不仅在此处进行交互式内容,而且场景,风险类型,深厚的语义信息,例如代理的行为模式。 2。推理内存构建:从内存功能中选择最具代表性的“情况”,并生成高质量的心理过程(COT)LLM过程(代理商E中使用的LLM相同的LLM,E不一致)。这些婴儿床就像人类专家的“犯罪经历”,为随后的评估提供了指导。 3。与内存相关:面对与代理商进行通信交流的新案例,代理人通过多阶段,上下文的获取机制从推断内存中动态捕获最相关的“案例酌情经验”(COT),这有助于LLM评估器做出更准确和稳定的判断。数据集:Assebench构造,以充分验证AgentAuditor的实力并填补基准差距,以确保安全和安全评估,这也是Assebench Group(Agent Security Security Security -Schark Marks)的精心创建的。这个基准:大规模:包含4个子集,共有2293个子集,他们仔细地标记了与真实代理的联系记录。广泛的范围:涵盖15种风险类型,528个交互式环境,涵盖29种应用情况和26种代理行为模式。精细标签:采用人类的创新过程合作机器,并在模糊风险情况下介绍了两个判断标准,“严格”和“松散”,分析更详细。两管齐下的方法:同时,专注于代理人“安全”(避免意外错误)和“安全性”(抵抗恶意攻击)的两个主要方面。实验性影响:Agentauditor允许LLM审稿人的准确性达到人类水平。对Assebench和R-Gudge等许多基准测试的广泛实验表明,一般改进是显着的:代理商可以显着提高所有数据集中各种LLM审阅者的性能。例如,Assebench安全上的Gemini-2-Flash认为F1标记增加到48.2%!几乎水平的人:Gemini-2-Flash认为与AgeneAuditor一起实现了SOTA会导致许多dataset,并且其分析的准确性(例如,R-Gudge中的96.1%ACC)接近甚至超过单个人类注释者的平均水平。强壮的弹性能力:面对Assebench-Strict和Assebench Lenient,这是模糊场景设计的两个不同的标准子集,代理商可能适合其策略方法,以显着缩小不同标准下不同模型之间的性能差距。上图分别显示了代理商与现有方法和人类评估水平的比较。左图将精度(ACC)和F1 AgentAuditor标记与使用LLM的审核方法进行了比较。正确的图将代理商的准确性与单个人类检查员的平均准确性与许多基准标记的平均精度进行了比较。代理商对挑战的系统分析的主要贡献:对当前自动化评估安全性的关键挑战的深入回顾。创新框架:通过自适应样品代表性选择,结构化记忆,破布和自动变量可显着增强LLM评估功能婴儿床的产生。第一个专用的基准:Assebench填补了农场空白,并为人力计算机合作的注释提供了新的范式。人类水平的表现:实验证明,评估的准确性和可靠性已达到专业人士的水平。结论Agenenauditor和Assebench提案为开发更值得信赖的LLM代理提供了强大的评估工具和研究基础。这项工作不仅是纳吉特(Nagit)会促进LLM审阅者的发展,而且还教授了将来开发更安全,更可靠的代理防御系统的方法。