AI 能自己开电脑干活了？这个开源项目已经把基础设施搭好了。

张

张建站

2026/5/30 18:16:22

10分钟阅读

摘要CUA 是一个专为 Computer-Use Agent 设计的开源基础设施支持在 macOS / Linux / Windows / Android 沙箱中让 AI 操控真实桌面。包含 Sandbox SDK、后台驱动、Agent 框架、基准评测和 macOS 虚拟化五大模块已获 17k StarMIT 许可值得每个做 Agent 开发的人认真看一眼。你有没有想过让 AI 帮你在电脑上干活——不是生成文本而是真的打开浏览器、点击按钮、填写表单、提交代码这件事听起来像科幻但现在已经有人把基础设施搭好了。GitHub 上有个叫CUAComputer-Use Agents的开源项目17,300 Star70 位贡献者500 版本迭代MIT 许可。它做的事情只有一件让 AI Agent 真正拥有一台可以操控的电脑。背景这个方向为什么现在热起来了2024 年 Anthropic 发布 Computer Use 功能之后AI 操控桌面一下子从实验室概念变成了开发者能摸到的东西。但大多数人很快遇到同一批问题怎么给 Agent 搭一个安全的隔离沙箱不污染本机跑在 macOS 上和跑在 Linux 上API 能统一吗怎么评测 Agent 的真实任务完成率怎么把会话录下来后续做训练数据这些问题CUA 打包解决了。 CUA 是什么简单说CUA 是一套为 Computer-Use Agent 设计的开源基础设施核心包含五个模块模块作用Cua Sandbox多 OS 隔离沙箱统一操控 SDKCua DrivermacOS 后台无感驱动cua-agent接入主流模型的 Agent 框架Cua-Bench真实桌面任务评测 RL 环境LumeApple Silicon 上的 macOS 虚拟化这五个模块加起来覆盖了从搭环境到评测训练的整条链路。下面逐个拆开来看。 Cua Sandbox一个 API跑遍所有 OSCua Sandbox 的设计思路很干净——同一套 Python API不管是 Linux 容器、macOS VM 还是 Windows 沙箱调用方式完全一样fromcuaimportSandbox, ImageasyncwithSandbox.ephemeral(Image.linux())assb: result awaitsb.shell.run(echo hello) screenshot awaitsb.screenshot()awaitsb.mouse.click(100,200)awaitsb.keyboard.type(Hello from Cua!)awaitsb.mobile.gesture((100,500), (100,200))# 多点触控也支持换成 macOS 只需要改一行asyncwithSandbox.ephemeral(Image.macos())assb: ...这种抽象做得很彻底。本地用 QEMU 或 Lume 跑 VM云端走 cua.ai切换时代码完全不用动。热启动时间不到 1 秒。对于需要并行跑多个 Agent 任务的场景这个数字很重要。云端方案还支持环境快照和一键 fork——把一个配置好的沙箱瞬间复制成 N 个并行实例适合大规模评测。 Cua Driver不抢光标的后台操控这是我觉得最实用的一个模块。普通的桌面自动化工具有个老毛病Agent 在操作时你的鼠标光标会被抢走什么都干不了。Cua Driver 解决了这个Agent 在后台静默运行不抢光标、不切换焦点、不打断你当前的工作。更关键的是它能处理 Chromium 内容和 Canvas 类应用Blender、Figma、DAW、游戏引擎等。这类界面走的不是 macOS 系统无障碍接口AX传统工具通常对付不了。安装只需要一行/bin/bash -c$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)它还内置了MCP server可以直接接入 Claude Code 和 Cursor让这些编程 Agent 多一双眼睛和手。每次会话自动录制成可回放的轨迹方便后续标注和训练。 Agent Framework主流模型全支持CUA 的 Agent 框架cua-agent支持三种 loop 模式Agent Loop支持模型特点AgentLoop.OPENAIcomputer_use_previewOpenAI Operator 原生AgentLoop.ANTHROPICClaude 4.7 / 4.7 SonnetAnthropic Computer UseAgentLoop.OMNIGPT-4o、Gemini、Qwen、Ollama 本地模型等基于 OmniParser支持任意 VLMOMNI 模式值得单独说一下。它用 OmniParser 做 UI 元素识别和 Set-of-Marks 像素级标注把视觉定位和推理拆开理论上用 Ollama 跑本地模型也能驱动桌面操作。对于不想把截图数据发到云端的场景这个方案很有价值。装起来很简单pip installcua-agent[anthropic]# 或者pip installcua-agent[omni]# 包含 Ollama 本地模型支持跑一个完整的 Agent 任务大概是这个样子fromcuaimportSandbox, Imagefromcua.agentimportComputerAgent, AgentLoop, LLM, LLMProviderasyncwithSandbox.ephemeral(Image.macos())assb: agent ComputerAgent( computersb, loopAgentLoop.ANTHROPIC, modelLLM(providerLLMProvider.ANTHROPIC) )awaitagent.run(在 GitHub 上搜索 trycua/cua打开最新的 Issue 并读取内容) Cua-Bench在真实桌面上评测 Agent光搭环境不够还得知道 Agent 到底表现如何。Cua-Bench 支持在 OSWorld、ScreenSpot、Windows Arena 等公开数据集上跑评测也支持自定义任务集pip install cua-bench cb run dataset datasets/cua-bench-basic --agent cua-agent --max-parallel 4评测完可以导出轨迹直接接入训练 pipeline形成收集数据 → 标注 → 训练 → 再评测的闭环。对做 Computer-Use 研究的团队来说这条链路是真正有价值的地方。官方也在搭建评测注册表cuabench.ai/registry不同模型在相同任务集上的成绩可以横向对比。 Lume在 Apple Silicon 上跑 macOS VM最后说一个隐藏亮点——Lume。它基于 Apple 官方的 Virtualization.Framework在 M 系列芯片上创建 macOS 和 Linux VM性能接近原生。启动一个 macOS Sequoia 就一行# 安装 Lume/bin/bash -c$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)# 拉取并启动lume run macos-sequoia-vanilla:latest对于需要在真实 macOS 环境里测试 Agent 行为比如 Xcode 构建、原生 macOS 应用操控的场景Lume 是目前方案里最干净的选择。它和 Cua Sandbox 完全集成共用同一套 SDK。一些数据GitHub Stars17,3002025 年 1 月上线约一年半时间Forks1,083贡献者70 人发布版本500许可证MIT无商用限制社区规模50,000 工程师使用知名用户Hugging Face、Meta、Apple、NVIDIA、Duolingo 等公司工程师17k Star 对一个垂直基础设施项目来说是相当扎实的数字。从 Star 增长趋势来看2025 年下半年增速明显加快和整个 Computer-Use Agent 方向的热度正相关。我的看法CUA 做的事情准确说是把 Computer-Use Agent 的水电煤拉通了——沙箱、驱动、评测、训练数据每个环节都有对应的工具而且 API 设计相对克制没有过度封装。有几点值得注意强项macOS Apple Silicon 生态。Lume 和 Cua Driver 都在这里做到了深度集成本地跑 Agent 体验比较完整。相对弱的地方Windows 本地端支持还在完善中目前主要靠云端方案覆盖。如果主力开发环境是 Windows需要多看一下文档再决定。适合谁用在 Mac 上做 Agent 开发想要一个标准化的沙箱环境做 Computer-Use 相关研究需要评测基准和轨迹数据想把 Claude / GPT 接入桌面操控但不想自己搭底层整体来说这是目前 Computer-Use Agent 方向做得比较完整的开源框架值得认真研究。开源地址https://github.com/trycua/cua官网文档https://cua.ai/docs你在做 AI Agent 相关的项目吗有尝试过让模型直接操控桌面吗欢迎评论区聊聊。我是顾北关注我获取更多好玩有趣的开源仓库谢谢你阅读我的文章~我们下期再见PS本文部分内容由AI辅助创作

深入解析MapleStory游戏资源编辑：Harepacker-resurrected架构设计与高级应用

深入解析MapleStory游戏资源编辑：Harepacker-resurrected架构设计与高级应用【免费下载链接】Harepacker-resurrected All in one .wz file/map editor for MapleStory game files 项目地址: https://gitcode.com/gh_mirrors/ha/Harepacker-resurrected Har…...

2026/5/30 18:15:27 阅读更多 →

从0打造99.99%在线CRM的技术

技术架构设计高可用架构采用微服务设计，每个服务独立部署和扩展。使用容器化技术（如Docker）和编排工具（如Kubernetes）管理服务生命周期。负载均衡层通过Nginx或云服务商提供的LB实现流量分发。多区域部署结合DNS解析实…...

2026/5/30 18:15:10 阅读更多 →

Azure OpenAI服务从零到一：企业级大模型集成实战指南

1. 项目概述：从零上手Azure OpenAI服务最近和几个做产品和技术的老朋友聊天，发现大家不约而同地开始在自己的项目里尝试集成大语言模型。无论是想给内部知识库加个智能问答，还是给用户做个创意文案生成器，甚至是想优化客服系统的…...

2026/5/30 18:13:07 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/30 9:03:19 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/29 20:04:58 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/30 12:22:35 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/30 1:22:49 阅读更多 →