AI已经开始“自由播放计算机”!吉达(Jida)推

May -set概况:本文的第一本文章Niu Runligang是在Jilin大学人工智能学院学习的医生。他的研究指示包括大型模型代理和强化研究,重点是GUI代理。与Wang Qi相对应的是Jilin University人工智能学院的研究人员。他的研究指示包括采矿数据,大型模型和增强研究。迈向通用人工智能(AGI)的主要目标之一是创建一个能够探索并继续与开放世界互动的代理。随着大型语言模型(LLM)和视觉语言模型(VLM)的快速发展,代理在跨域的概括工作中表现出惊人的功能。在世界各地的每个环境中,用户的图形接口(GUI)无疑是人类计算机联系的最常见阶段。想象---不仅您的人工智能可以理解screen,但也积极探索界面,找出像人一样的操作,并对新应用程序进行响应。这不再是幻想!最近,Jilin大学的人工智能学院发布了一项基于强化研究培训的VLM代理的最新研究,“ Screenexplorer:培训视觉语言模型,以实现开放式GUI世界的不同探索”。它允许视觉语言模型(VLM)真正了解“ GUI环境中的自我表达”。纸质地址:https://arxiv.org/abs/2505.19095项目地址:https://github.com/niuzaisheng/niuzaisheng/screenexplorerthis工作带来了三个重大突破:在真实桌面GUI环境中VLM模型的在线培训;该创新型引入了“好奇机制”,以解决GUI开放环境的反馈的广泛问题,并使用世界模型来预测环境状态转移并估算环境状态的新鲜感,从而有效地实现我们的现象代理人积极探索不同的界面状态,“此外,DeepSeek-R1的灵感,建立了“体验经验经验”训练的范式,探索每一代代理的经验自动改进了下一代代理,这不仅可以提高探索的能力,还可以降低实验室的效率,并降低实验室的效率,并降低了实验室的数据,并可以实现范围的数据 evolution and creates a truly "endless study" smart body! The paper also opens the resource training code, etc. Fewer nonsense, watch video first: Real-time contact with online reinforcement study of the study outline first, an online reinforcement study environment that can contact the GUI Virtual Machine in real time. VLM agents can contact GUI's real-time operation by outputing mouse and keyboard functional calls. The reinforcement environment requires the VLM agent to be output in cot form by i词,包括“意图”和“行动”。最后,环境研究分析功能的加强曲调采用正式的动作并对真实的操作系统执行动作。在冲压过程中,许多虚拟环境虚拟机可以并行采样,每个环境都采取了许多步骤,并且所有操作步骤都存储在推出缓冲区中。启发式 +世界模型驱动的奖励系统文章产生了启发式 +世界模型驱动的探索奖励,探索的启发式奖励鼓励轨迹中的照片之间的差异更大。除了格式的回报和结盟意图的回报之外,世界模型还可以为每个动作带来好奇心的回报,鼓励模型探索越来越多的无形场景。结合上述奖励,我们将为每个守护者提供即时的奖励,然后鼓励模型作为新州有效地与环境联系继续探索环境。计算小组优势组。在每个步骤获得输出的奖励之后,与DeepSeek-R1相同的GRPO算法用于训练VLM进行增强研究。可以 - 将所有操作设置在与组同一推出缓冲区中的所有操作。首先,根据GRPO的优势计算每个行动的优势的值:然后使用GRPO损耗函数更新VLM参数:它可以实现每回合中的巧合推理,实现和记录许多平行环境,然后使用该方法使用方法来更新实时数据数据,并更新实时数据。 eksperimento sa artikulo ay gumagamit ng qwen2.5-vl-3b在qwen2.5-vl-7b bilang mga mga pangunahing Modelo。 Matagumpay Na Buksan Ang Anumang软件:Ngunit SAIsang Maliit na Pagsanay,Ang Modelo Ay MaaAring Matagumpay na Buksan ang Ilang软件SA桌面:片刻,该模型将学会在更深的页面上进行探索:QWEN2.5-VL-7B型号的性能更好,并且在培训期之后,它甚至可以成为一个完整的“购物车”过程:可以构建模型:构建特定的奖励奖励,因此可以浏览特定的任务。适应当前的环境,并且比调用VLM静态甚至专门训练GUI场景的模型可以获得更高的探索变化:研究研究后,QWEN 2.5-VL-3B的主要模型最初具有易感性的探索,成功地跳到了表现最好的Screenexplorer-3B-3B-E1绩效。差异越高 - 探索意味着代理可以与环境更有效地互动,打开更多软件或自己探索更多页面,提供最基本的互动和探索功能,以完成培训以完成特定任务,或屏幕内容中的新知识。在培训过程中,每个子项目的奖励价值将继续增加。此外,在重建世界模型的重建中,LossESI保持较高的水平也反映了该模型正在探索新状态。为什么需要世界模型?本文通过谈判的实验比较了各种奖励的需求,并特别关注了世界模型对探索培训的好奇心奖励的影响。实验发现,当消除了世界模型的好奇心回报时,模型很难学习如何在环境中有效地进行社交,并且所有奖励都没有显示出改进的趋势。为了更好地了解世界模型对培训的好奇心回报的影响,文章显示了在不同消融环境下改变GRPO优势的趋势。众所周知,来自世界的好奇心的Gantimpala modEL增加了差异 - 优势的优势,这种变化导致勘探过程经历开始的寒冷阶段。但是,没有世界模型的奖励的消融团队是在开始的寒冷阶段被困,很难进行有效的探索。新技能出现了。此外,本文还显示了在强化学习培训后从模型中提出的技能,例如:模态翻译能力:状态计划:复杂的推理能力:在探索生成的示例中,可以将“意图”字段视为免费标签,这为成功提供了数据的基础。结论这项研究在开放世界的环境中成功训练了探索代理Screenexplorer。通过合并 - 探索奖励,世界模型和GRPO研究,GUI的代理相互作用能力得到了有效的提高,流动流动技术的流量很高RTHER提高了其探索的效率。通过稳定的探索,该代理直接从环境中获得流动经验,减少了对人类遥控操作数据的依赖,为实现更多的自主神经并迈向通用人工智能(AGI)提供了可行的技术途径。

Related Posts

Comments are closed.