Chapter 01

多模态 AI 与 Computer Use 概述

从文本到行动——理解 AI 如何从"对话"进化为"操作计算机"

AI 从文本到行动的进化

第一代:纯文本 AI(2017-2021)

早期的大语言模型(如 GPT-2、BERT)只能处理文本输入并输出文本。它们的应用场景局限于文本分析、问答、翻译等纯语言任务。这一阶段的 AI 是纯粹的"思考者"——它能理解问题,但无法直接采取行动。

第二代:多模态感知(2022-2023)

随着 GPT-4V(Vision)、Claude 3 等多模态模型的出现,AI 开始能够"看"——理解图像和截图中的内容。这为 Computer Use 奠定了关键基础:AI 可以通过截图来感知计算机屏幕的状态。

第三代:主动行动(2024-至今)

2024 年 10 月,Anthropic 发布了 Computer Use 功能,标志着 AI 从"感知"进化为"行动"。Claude 现在不仅能"看到"屏幕,还能指挥鼠标移动、键盘输入,完成真实的计算机操作任务。

AI 能力演进示意图 纯文本 AI 多模态 AI Computer Use │ │ │ ▼ ▼ ▼ [文字输入] [图片+文字输入] [截图感知+操作输出] │ │ │ [文字输出] [文字输出] [鼠标/键盘/命令] │ │ │ 被动回答 理解视觉 主动操作

Computer Use 核心概念

什么是 Computer Use?

Computer Use 是 Anthropic 在 Claude 3.5 Sonnet(2024 年 10 月版本)中引入的功能,允许 Claude 通过以下工具与计算机交互:

computer_20241022
核心工具,提供截图(screenshot)、鼠标操作(mouse_move/left_click/right_click/double_click/drag)、键盘操作(key/type)功能。所有 GUI 交互都通过这个工具完成。
text_editor_20241022
文本编辑工具,提供查看文件(view)、创建文件(create)、替换文本(str_replace)、插入内容(insert)功能。比用 computer 工具模拟文本编辑更高效。
bash_20241022
Shell 工具,允许直接执行 bash 命令。适合文件操作、程序启动、环境配置等不需要 GUI 的任务。与 computer 工具配合使用效果最佳。

Computer Use 的工作原理

Computer Use 执行循环 用户: "帮我在谷歌上搜索最新的 Python 新闻" ↓ Claude: 分析任务,决定第一步 ↓ Claude → [screenshot 工具] → 获取当前屏幕截图 ↓ Claude: 看到浏览器,需要导航到 Google ↓ Claude → [left_click (地址栏)] → 点击浏览器地址栏 ↓ Claude → [type "google.com"] → 输入 Google 网址 ↓ Claude → [key "Return"] → 按回车 ↓ Claude → [screenshot] → 确认 Google 已加载 ↓ Claude → [left_click (搜索框)] → 点击搜索框 ↓ Claude → [type "Python latest news"] → 输入搜索词 ↓ Claude → [key "Return"] → 执行搜索 ↓ Claude → [screenshot] → 获取搜索结果 ↓ Claude: 分析结果,向用户报告

与传统自动化技术的区别

vs. RPA(Robotic Process Automation)

RPA 是 Computer Use 出现之前自动化的主要方式,代表产品有 UiPath、Automation Anywhere、Blue Prism。

维度 传统 RPA Computer Use
界面适配 需要录制操作或编写规则,UI 变化后需要重新配置 通过视觉理解,UI 轻微变化仍能适应
部署成本 高(专业实施顾问,数周到数月) 低(写 Python 代码调用 API 即可)
处理例外 难(规则外的情况往往导致流程中断) 强(可以理解并处理异常情况)
非结构化处理 弱(无法理解非结构化内容) 强(可以阅读理解任意文本/图表)
成本 固定高成本(软件授权费高) 按 token 计费,小规模使用经济
可靠性 高(确定性操作) 中(依赖 AI 推理,有不确定性)

vs. Selenium/Playwright

Selenium 和 Playwright 是 Web 自动化工具,通过 DOM 操作控制浏览器。

选择器依赖
Selenium/Playwright 需要 CSS 选择器或 XPath,UI 结构变化会导致脚本失效。Computer Use 通过视觉识别元素,不依赖 DOM 结构。
应用范围
Selenium/Playwright 只能控制浏览器。Computer Use 可以控制任何桌面应用、IDE、游戏等非 Web 程序。
动态内容
Selenium 需要等待元素加载,编写复杂的等待逻辑。Computer Use 看到实际界面,更接近人类的感知方式。
Speed
Selenium/Playwright 执行速度快(毫秒级)。Computer Use 因为需要截图和 API 调用,每步操作约 1-5 秒,整体任务较慢。
组合使用效果最佳

实际项目中,Computer Use 和 Playwright 经常组合使用:用 Playwright 处理可预测的标准 Web 操作(更快更可靠),用 Computer Use 处理复杂的视觉理解任务或桌面应用操作。

应用场景

最适合 Computer Use 的场景

场景1

数据录入与迁移

从旧系统(无 API)读取数据,录入到新系统。如将 Excel 数据录入 ERP、将邮件中的订单信息录入 CRM。

场景2

软件测试自动化

对没有 API 的桌面软件进行功能测试。Computer Use 能像真实用户一样操作界面,发现 UI Bug。

场景3

信息收集与监控

从多个网站/系统收集信息并汇总报告。特别适合那些没有 API 但有网页界面的信息源。

场景4

工作流自动化

将需要人工操作多个应用的工作流自动化,如"收到邮件附件 → 打开 Excel 处理 → 上传结果到内部系统"。

当前能力边界与局限

已知的能力局限

伦理与安全考量

Computer Use 的伦理使用原则

Computer Use 是强大的工具,必须负责任地使用:

多模态理解的技术原理

Claude 如何"看懂"屏幕

Computer Use 的视觉理解能力基于大型多模态模型(LMM,Large Multimodal Model)。理解其工作原理,有助于你写出更好的提示词和设计更可靠的系统。

视觉 Token 化
截图在发送给 Claude 之前,会被分割为若干图像块(tiles),每个块转换为向量表示(embedding)。屏幕上的文字、图标、按钮、布局,都通过这种方式被编码为模型可以处理的"视觉 token"。这就是为什么截图会消耗大量 token 的原因——一张 1280×800 的图,大约产生 1000+ 视觉 token。
空间推理
Claude 在理解截图时,不仅识别各个元素,还能推断它们的空间关系:哪个按钮在输入框右边、菜单项的层次结构、滚动条所在的位置。这种空间推理使得它能够将"点击搜索按钮"这种自然语言描述转化为具体的坐标。
UI 模式识别
Claude 在训练数据中见过大量 UI 截图,因此对常见 UI 模式有强烈的先验:它知道地址栏在浏览器顶部、关闭按钮通常在窗口右上角、下拉菜单的箭头意味着可以展开。这种先验知识让它能够快速定位目标元素,即使没有明确的 DOM 结构参考。
跨轮次状态追踪
Computer Use 通过保留完整的对话历史(包括之前的截图)来追踪状态。Claude 能够"记住"上一步操作的结果,并据此决定下一步行动。这与人类使用计算机时的短期记忆类似。

Computer Use 的感知-规划-行动循环

感知(Perceive)→ 规划(Plan)→ 行动(Act)→ 感知(循环) 感知阶段: 截图 → 视觉理解 → 识别当前状态 "我看到了一个浏览器,地址栏显示 about:blank,没有其他内容" 规划阶段(内部推理,不显示给用户): "用户要搜索 Python 新闻。当前任务: 1. 点击地址栏 2. 输入 google.com 按回车 3. 在搜索框输入 Python latest news 4. 按回车搜索 5. 获取结果截图" 行动阶段: 输出 tool_use → 执行 → 返回结果 → 下一轮感知

视觉 OCR 与语义理解的区别

Computer Use 的视觉理解远不止"读取屏幕上的文字"(OCR),它还能理解:

常见误区与最佳实践

新手常见的5个误区

误区1:期望每步都完美
Computer Use 基于概率推理,不是确定性程序。Claude 有时会点击到略微偏移的位置,或误解界面元素。正确做法是设计容错机制:操作后截图确认,失败时重试,设置最大步骤数限制。
误区2:把 Computer Use 用于所有任务
如果目标网站有 API,直接调用 API 比 Computer Use 快 100 倍,成本低 10 倍,可靠性高 10 倍。Computer Use 的优势在于处理没有 API 的系统。先问自己:这个任务有没有更直接的方式?
误区3:忽略截图频率的成本影响
每张截图约消耗 600-1500 tokens(取决于分辨率)。如果每步都截图,一个 30 步的任务光截图就要 3 万 tokens,约 $0.5。合理的截图策略是:只在需要确认状态时截图,不要在每次键入字符后都截图。
误区4:系统提示词不够明确
给 Computer Use 的任务描述越具体越好。"帮我登录系统"比"帮我登录到 https://app.example.com,账号 admin@company.com,密码在环境变量 PASSWORD 中"要模糊得多。Claude 需要足够的信息才能做出正确决策。
误区5:在生产系统上直接测试
始终先在测试环境验证。Computer Use Agent 在学习阶段可能会做出意想不到的操作:点击错误的按钮、在错误的表单中输入数据。在生产环境中这些都可能造成数据损坏或意外触发业务流程。

提高 Computer Use 成功率的关键技巧

章节小结

本章介绍了 Computer Use 的核心概念和技术背景。关键要点: