AI 能自己开电脑干活了?这个开源项目已经把基础设施搭好了。
摘要CUA 是一个专为 Computer-Use Agent 设计的开源基础设施支持在 macOS / Linux / Windows / Android 沙箱中让 AI 操控真实桌面。包含 Sandbox SDK、后台驱动、Agent 框架、基准评测和 macOS 虚拟化五大模块已获 17k StarMIT 许可值得每个做 Agent 开发的人认真看一眼。你有没有想过让 AI 帮你在电脑上干活——不是生成文本而是真的打开浏览器、点击按钮、填写表单、提交代码这件事听起来像科幻但现在已经有人把基础设施搭好了。GitHub 上有个叫CUAComputer-Use Agents的开源项目17,300 Star70 位贡献者500 版本迭代MIT 许可。它做的事情只有一件让 AI Agent 真正拥有一台可以操控的电脑。背景这个方向为什么现在热起来了2024 年 Anthropic 发布 Computer Use 功能之后AI 操控桌面一下子从实验室概念变成了开发者能摸到的东西。但大多数人很快遇到同一批问题怎么给 Agent 搭一个安全的隔离沙箱不污染本机跑在 macOS 上和跑在 Linux 上API 能统一吗怎么评测 Agent 的真实任务完成率怎么把会话录下来后续做训练数据这些问题CUA 打包解决了。 CUA 是什么简单说CUA 是一套为 Computer-Use Agent 设计的开源基础设施核心包含五个模块模块作用Cua Sandbox多 OS 隔离沙箱 统一操控 SDKCua DrivermacOS 后台无感驱动cua-agent接入主流模型的 Agent 框架Cua-Bench真实桌面任务评测 RL 环境LumeApple Silicon 上的 macOS 虚拟化这五个模块加起来覆盖了从搭环境到评测训练的整条链路。下面逐个拆开来看。 Cua Sandbox一个 API跑遍所有 OSCua Sandbox 的设计思路很干净——同一套 Python API不管是 Linux 容器、macOS VM 还是 Windows 沙箱调用方式完全一样fromcuaimportSandbox, ImageasyncwithSandbox.ephemeral(Image.linux())assb: result awaitsb.shell.run(echo hello) screenshot awaitsb.screenshot()awaitsb.mouse.click(100,200)awaitsb.keyboard.type(Hello from Cua!)awaitsb.mobile.gesture((100,500), (100,200))# 多点触控也支持换成 macOS 只需要改一行asyncwithSandbox.ephemeral(Image.macos())assb: ...这种抽象做得很彻底。本地用 QEMU 或 Lume 跑 VM云端走 cua.ai切换时代码完全不用动。热启动时间不到 1 秒。对于需要并行跑多个 Agent 任务的场景这个数字很重要。云端方案还支持环境快照和一键 fork——把一个配置好的沙箱瞬间复制成 N 个并行实例适合大规模评测。 Cua Driver不抢光标的后台操控这是我觉得最实用的一个模块。普通的桌面自动化工具有个老毛病Agent 在操作时你的鼠标光标会被抢走什么都干不了。Cua Driver 解决了这个Agent 在后台静默运行不抢光标、不切换焦点、不打断你当前的工作。更关键的是它能处理 Chromium 内容和 Canvas 类应用Blender、Figma、DAW、游戏引擎等。这类界面走的不是 macOS 系统无障碍接口AX传统工具通常对付不了。安装只需要一行/bin/bash -c$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)它还内置了MCP server可以直接接入 Claude Code 和 Cursor让这些编程 Agent 多一双眼睛和手。每次会话自动录制成可回放的轨迹方便后续标注和训练。 Agent Framework主流模型全支持CUA 的 Agent 框架cua-agent支持三种 loop 模式Agent Loop支持模型特点AgentLoop.OPENAIcomputer_use_previewOpenAI Operator 原生AgentLoop.ANTHROPICClaude 4.7 / 4.7 SonnetAnthropic Computer UseAgentLoop.OMNIGPT-4o、Gemini、Qwen、Ollama 本地模型等基于 OmniParser支持任意 VLMOMNI 模式值得单独说一下。它用 OmniParser 做 UI 元素识别和 Set-of-Marks 像素级标注把视觉定位和推理拆开理论上用 Ollama 跑本地模型也能驱动桌面操作。对于不想把截图数据发到云端的场景这个方案很有价值。装起来很简单pip installcua-agent[anthropic]# 或者pip installcua-agent[omni]# 包含 Ollama 本地模型支持跑一个完整的 Agent 任务大概是这个样子fromcuaimportSandbox, Imagefromcua.agentimportComputerAgent, AgentLoop, LLM, LLMProviderasyncwithSandbox.ephemeral(Image.macos())assb: agent ComputerAgent( computersb, loopAgentLoop.ANTHROPIC, modelLLM(providerLLMProvider.ANTHROPIC) )awaitagent.run(在 GitHub 上搜索 trycua/cua打开最新的 Issue 并读取内容) Cua-Bench在真实桌面上评测 Agent光搭环境不够还得知道 Agent 到底表现如何。Cua-Bench 支持在 OSWorld、ScreenSpot、Windows Arena 等公开数据集上跑评测也支持自定义任务集pip install cua-bench cb run dataset datasets/cua-bench-basic --agent cua-agent --max-parallel 4评测完可以导出轨迹直接接入训练 pipeline形成收集数据 → 标注 → 训练 → 再评测的闭环。对做 Computer-Use 研究的团队来说这条链路是真正有价值的地方。官方也在搭建评测注册表cuabench.ai/registry不同模型在相同任务集上的成绩可以横向对比。 Lume在 Apple Silicon 上跑 macOS VM最后说一个隐藏亮点——Lume。它基于 Apple 官方的 Virtualization.Framework在 M 系列芯片上创建 macOS 和 Linux VM性能接近原生。启动一个 macOS Sequoia 就一行# 安装 Lume/bin/bash -c$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)# 拉取并启动lume run macos-sequoia-vanilla:latest对于需要在真实 macOS 环境里测试 Agent 行为比如 Xcode 构建、原生 macOS 应用操控的场景Lume 是目前方案里最干净的选择。它和 Cua Sandbox 完全集成共用同一套 SDK。 一些数据GitHub Stars17,3002025 年 1 月上线约一年半时间Forks1,083贡献者70 人发布版本500许可证MIT无商用限制社区规模50,000 工程师使用知名用户Hugging Face、Meta、Apple、NVIDIA、Duolingo 等公司工程师17k Star 对一个垂直基础设施项目来说是相当扎实的数字。从 Star 增长趋势来看2025 年下半年增速明显加快和整个 Computer-Use Agent 方向的热度正相关。 我的看法CUA 做的事情准确说是把 Computer-Use Agent 的水电煤拉通了——沙箱、驱动、评测、训练数据每个环节都有对应的工具而且 API 设计相对克制没有过度封装。有几点值得注意强项macOS Apple Silicon 生态。Lume 和 Cua Driver 都在这里做到了深度集成本地跑 Agent 体验比较完整。相对弱的地方Windows 本地端支持还在完善中目前主要靠云端方案覆盖。如果主力开发环境是 Windows需要多看一下文档再决定。适合谁用在 Mac 上做 Agent 开发想要一个标准化的沙箱环境做 Computer-Use 相关研究需要评测基准和轨迹数据想把 Claude / GPT 接入桌面操控但不想自己搭底层整体来说这是目前 Computer-Use Agent 方向做得比较完整的开源框架值得认真研究。开源地址https://github.com/trycua/cua官网文档https://cua.ai/docs你在做 AI Agent 相关的项目吗有尝试过让模型直接操控桌面吗欢迎评论区聊聊。我是顾北关注我获取更多好玩有趣的开源仓库谢谢你阅读我的文章~我们下期再见PS本文部分内容由AI辅助创作