《Claude 电脑/浏览器操作最佳实践：把“会用”变成“可重复”》

用工程化方法提升智能体电脑/浏览器操作可靠性：精度、键盘优先、拆小目标与分层压缩上下文。

🧠 agentic reading｜1️⃣ 精准输入

导语

让 Claude 操作电脑和浏览器，难点不在“模型会不会理解任务”，而在整条执行链能不能稳定复现：截图分辨率、坐标缩放、点击目标大小、thinking effort、提示注入防御、上下文压缩、长任务规划和可演示工作流，都会决定一个 Agent 是偶尔能用，还是能进生产环境。

1. 点击精度是一切电脑操作的地基

电脑使用集成的第一原则是点击必须准。Claude 看到截图后，会在你指定的 display_width_px / display_height_px 坐标系中返回点击位置；但 API 对图像大小有内部处理限制。Claude 4.6 系列限制是长边 1568px、总像素 1.15MP；Opus 4.7 提高到长边 2576px、总像素 3.75MP。

如果截图超过限制被 API 静默缩小，模型看到的是降采样图，harness 执行的却是原始坐标系，点击偏移就会成为系统性错误。最有效的修正不是复杂提示词，而是先把截图缩放到限制内，再把模型返回坐标按比例映射回真实屏幕。

Anthropic 建议从 1280×720 开始：它约占 4.6 像素预算的 80%，对现代网页和旧桌面应用都稳。Opus 4.7 可从 1080p 开始，因为高分辨率预算带来明显画质提升。更精细的做法是按原始宽高比计算“max API fit”，在不拉伸画面的前提下吃满像素预算。

诊断点击问题时，优先检查 3 件事：display_width_px / display_height_px 是否等于实际发送图片尺寸；截图是否超过 API 限制被缩小；消息数组里是不是先放图片再放文字。文字指令应放在截图前面，让模型先知道要找什么，再处理图像。

2. 小目标、模型选择和 thinking effort：别把感知问题当推理问题

小目标会显著降低点击可靠性：checkbox、系统托盘图标、下拉箭头、小 toggle、树形结构展开按钮，都比大按钮和输入框难。密集 UI 应启用 zoom，让模型先放大局部再点击；如果能控制 UI，就增大点击目标；极小目标优先用键盘、Tab 导航或快捷键替代点击。

模型选择要分任务。Sonnet 4.6 通常机械点击更准，也更能承受 4K 截图到 720p 的重压缩；Opus 4.6 推理更强。Opus 4.7 缩小了差距，点击精度接近 Sonnet 4.6，同时分辨率预算更高，适合需要 Opus 级推理又有高分辨率源图的任务。Haiku 4.5 适合低延迟场景。

thinking effort 也不是越高越好。UI 自动化大多是感知和机械动作，不是数学证明。Opus 4.7 里，high 接近最高成功率但只用 max 约一半输出 token；成本敏感可用 low。Claude 4.6 系列里，medium 是性价比甜点，接近最高成功率而约用 high 一半输出 token。更多 thinking 只在多步骤规划、意外弹窗恢复、屏幕信息和任务约束交叉判断时真正有价值。

3. 安全：电脑 Agent 面对的是不可信世界

电脑/浏览器 Agent 会读取网页、邮件、应用 UI 和截图，这些输入都可能含有提示注入：隐藏文字、图片指令、欺骗性按钮、社会工程内容。它和普通 API 集成不同，普通 API 输入通常由开发者控制；电脑使用的输入来自开放互联网和真实软件界面。

Anthropic 的防御分 3 层：训练时用强化学习让模型识别并拒绝页面里的恶意指令；实时分类器扫描进入上下文的内容，检测多模态注入并影响 Claude 的响应；安全团队持续 red team。使用官方 computer_20251124 工具时，提示注入分类器默认运行，几乎不增加延迟和成本。

但分类器不是完整解决方案。高风险动作要有人在环确认：提交表单、购物、发消息、改数据等不可逆行为都应暂停确认。权限也要收窄：不需要下载文件就不给下载权限，不需要发邮件就不给邮件客户端。还要记录完整动作轨迹和截图，把网页、邮件、应用 UI 中的文字都当成不可信内容，而不是用户指令。

4. 上下文管理：长任务成本主要死在截图堆积

每次动作都会产生新截图，每张图大约消耗 1000–1800 token。一个 200k 上下文窗口，在扣掉系统提示、工具定义和文本后，通常不到 100 张截图就会被填满。上下文管理的目标有两个：控制 token 总量，并保持 prompt caching 有效。

缓存断点最多 4 个。一个放在稳定前缀（系统提示或工具定义）足够，其余应放在最近 tool result 上，并随回合推进。这样即便最近断点因剪图或压缩失效，早一点的断点仍可能命中，让输入成本保持在 10% 而不是 100%。

最简单的滚动缓冲是只保留最近 N 张截图，用 [Image omitted] 替换旧图。但逐张删除会每轮破坏缓存。更好的策略是批量剪枝：例如保留最近 3 张，等总截图数超过 keep_n + interval 后一次性替换最旧的 25 张。短任务可只用滚动缓冲；长任务要配合 LLM compaction，把旧对话总结成可继续执行的状态。

高质量压缩必须保留用户原始指令、可重复工作流模板、限制规则、已执行动作、错误与修复、进度、当前状态和下一步。否则 Agent 会在长任务中漂移、重复尝试失败路径，或忘记关键约束。

5. 长任务可靠性：advisor、提醒和“教给 Claude”

长任务里，大多数回合只是机械点击，少数节点需要高阶判断：该开哪个标签、遇到弹窗如何恢复、是否放弃某条路径。advisor tool 的思路是让执行模型在同一个请求内咨询更强的顾问模型，例如 Sonnet 执行，Opus 4.7 给策略建议。它不能点击或浏览，只返回文字建议；为了控成本，可限制 advisor 调用次数，并在不再使用 advisor 时清理历史中的孤儿 advisor block。

长会话还会出现“模型忘记可用工具”的问题。轻量 reminder nudge 可以提醒它使用 batch tool 合并不依赖中间截图的连续动作，或在 20 回合左右没有调用 advisor 时提醒它可以咨询顾问。这类提醒应短，不要变成系统提示重写。

最重要的可靠性模式是 Teach Mode：不要只用文字解释工作流，而是录下人类完成任务的过程——点击、输入、导航、截图、可选语音说明。回放时，Claude 看到记录步骤和带标记截图，再对当前 UI 做适配。示范不是死板重放坐标，而是把“正确行为”变成可复用规格，让模型在 UI 变化时寻找等价元素。

结论

电脑/浏览器使用的生产化，不是单点提示词优化，而是一套工程系统：截图要按 API 限制预缩放，坐标要正确映射，小目标要用 zoom 或键盘替代，thinking effort 要按任务难度调，提示注入要多层防护，长上下文要缓存、剪枝和压缩，复杂流程要通过示范而非反复提示来固化。只有这些环节都稳定，Agent 才能从“偶尔成功”变成“可重复交付”。

思想框架

文章从最底层的点击精度切入，因为任何电脑操作失败最终都会表现为“没点中”。随后扩展到模型选择与 thinking effort，说明哪些问题是感知、哪些才是推理。接着进入生产系统必须面对的安全和上下文管理，最后用 advisor 和 Teach Mode 解释长任务如何在成本、可靠性和适应性之间取得平衡。

Best practices for computer and browser use with Claude

Claude Blog · 32 分钟

✍️ think & write｜2️⃣ 费曼输出

请用自己的话解释：为什么“截图被 API 静默缩小”会导致 Claude 点击位置偏移？回答中要包含 display 坐标系和真实屏幕坐标系的关系。

如果你要让一个 Agent 稳定完成 80 步网页流程，请列出你会同时使用的 3 个上下文管理策略，并说明各自解决什么失败模式。

我的笔记

✍️ 写下你的想法，自由记录即可。如果没有灵感，试着回答上方的费曼输出问题。

登录后可记笔记

登录后可保存笔记、高亮、划线和批注。