SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents
袁旦龙发布论文《SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents》。
SWE-MiniSandbox是一个无需容器(Container-Free)的软件工程沙盒环境。其目标是解决当前SWE Agent训练中依赖容器的痛点:需要构建和维护大量的容器镜像,并运行高性能的容器服务器集群,导致了高昂基础设施和运维成本。因此,当扩展批量规模或提高rollout数量时,容器服务器承载量成为主要性能瓶颈,造成计算资源受限情况下训练无法扩展,而缺乏容器管理权限或没有专用编排基础设施的从业人员则无法训练自己的Agent。
与容器环境相对,SWE-MiniSandbox在实现进程和文件系统隔离的过程中绕过了对容器或重型镜像的依赖,通过按实例划分的挂载命名空间(mount namespaces)和基于 chroot的文件系统隔离机制,为每个实例创建隔离的终端会话和私有目录。在此基础上,SWE-MiniSandbox实现了一套环境预缓存流水线:构建基于轻量级 Python conda+venv 的混合环境,安装特定任务的依赖项,并在不同运行间复用压缩的缓存产物。通过将环境和代码仓库打包成缓存,利用基于Ray的资源控制和信号量来限制并发解压,从而实现I/O的精细管理。通过直接与现有核心SWE工具集成——SWE-Rex(终端管理)、SWE-agent(任务求解)和 SkyRL(可扩展的多节点 RL),SWE-MiniSandbox 成为了SWE Agent任务中容器后端的一个无缝、即插即用的替代品。
在实际效果上,SWE-MiniSandbox在数据集(SWE-smith)上使环境缓存大小降低至同类基于容器方法的 5% 左右,将环境准备时间缩短至容器基线的 25%,并且消除了对额外容器服务器的需求。而在这样低资源依赖下,该环境在同等数据和参数设置下训练出的SWE Agent和容器环境下训练出的Agent在SWE-bench Verified上评测效果相当,可以说,大幅降低了SWE Agent的入门门槛。
论文链接:https://arxiv.org/abs/2602.11210
代码链接:https://github.com/lblankl/SWE-MiniSandbox
文档链接:https://lblankl.github.io/SWE-MiniSandbox/
王选计算机研究所