Computer Use · 多模态 Agent

Computer Use

AI 操控计算机——截图感知、鼠标键盘控制,让 Claude 成为能自主完成任务的数字工作者

视觉感知
鼠标键盘控制
多步规划
自主执行
10 核心章节
Claude Anthropic Claude API
全平台 支持浏览器+桌面

什么是 Computer Use?

2024 年 10 月,Anthropic 发布了 Computer Use 功能,这是 AI 能力的一次重大飞跃。与以往的 AI 不同,Computer Use 让 Claude 能够真正"看到"屏幕内容、移动鼠标、点击按钮、输入键盘——就像一个真实的人类操作员一样使用计算机。

这不是传统的 RPA(Robotic Process Automation)或 Selenium 式的 DOM 操作。Computer Use 通过截图视觉理解来感知界面,无需预先定义元素选择器,可以处理任何图形界面,无论是 Web 应用、桌面软件,还是终端命令行。

本教程将从 Anthropic API 的工具定义开始,带你系统掌握截图工具实现、鼠标键盘控制、浏览器 Agent 设计、安全沙箱构建,直到生产级部署的完整知识体系。

核心能力

构建真正能自主工作的 AI Agent

👁️

截图理解

通过 mss/Pillow 截图,发送给 Claude 分析界面内容,精准识别按钮、文本框、链接。

🖱️

鼠标点击

pyautogui 精确控制鼠标移动、单击、双击、拖拽,支持坐标定位与比例定位。

⌨️

键盘输入

文字输入、组合键操作、特殊按键,完整模拟人类键盘操作行为。

🌐

浏览器自动化

结合 Playwright 实现高可靠性浏览器 Agent,登录、表单填写、多页面协作。

🖥️

桌面应用控制

控制任意桌面软件,文件管理器、IDE、办公软件,跨应用自动化工作流。

🗺️

任务规划

大任务分解、里程碑检查点、失败恢复、并行 Agent 协作,完整规划执行框架。

课程目录

从概念认知到生产部署,系统掌握 Computer Use 开发

Chapter 01

多模态 AI 与 Computer Use 概述

AI 从文本到行动的进化史、Computer Use 核心概念、与 RPA/Selenium 的本质区别、应用场景与当前局限。

概念 多模态 应用场景
Chapter 02

Anthropic Computer Use API 详解

工具定义(computer/text_editor/bash)、API 调用结构、tool_use 响应解析、执行循环模式。

API tool_use 执行循环
Chapter 03

截图工具与视觉理解

Pillow/mss 截图实现、图像压缩优化、Base64 传输、分辨率策略、多显示器支持。

截图 Pillow 视觉理解
Chapter 04

鼠标与键盘控制实现

pyautogui 鼠标控制、坐标系统、键盘输入、组合键、滚动、窗口管理、操作等待策略。

pyautogui 鼠标 键盘
Chapter 05

浏览器自动化 Agent 设计

Playwright 截图集成、DOM 感知 vs 纯视觉、登录自动化、错误恢复、云端浏览器服务。

Playwright 浏览器Agent Browserbase
Chapter 06

桌面应用 Agent 开发

桌面应用识别与控制、窗口聚焦、系统对话框处理、macOS/Windows Accessibility API。

桌面应用 Accessibility 跨平台
Chapter 07

安全边界与沙箱设计

Docker/VM 沙箱搭建、网络隔离、操作白名单、危险操作拦截、审计日志、回滚机制。

沙箱 安全 审计
Chapter 08

工具调用(Tool Use)深度集成

Anthropic Tool Use 架构、自定义工具定义、并行工具调用、工具链、混合工具使用。

Tool Use 工具链 并行调用
Chapter 09

多步任务规划与执行框架

任务分解策略、思维链规划、里程碑检查点、失败恢复机制、状态跟踪、并行 Agent 协作。

任务规划 CoT 失败恢复
Chapter 10

生产部署:监控、成本与可靠性

Docker 容器化、VNC/无头模式、Kubernetes 弹性伸缩、成本控制、监控告警与可观测性。

生产部署 Kubernetes 可观测性