阅读库
《Claude 电脑/浏览器操作最佳实践:把“会用”变成“可重复”》
用工程化方法提升智能体电脑/浏览器操作可靠性:精度、键盘优先、拆小目标与分层压缩上下文。
🧠 agentic reading|1️⃣ 精准输入
《Claude 电脑/浏览器操作最佳实践:把“会用”变成“可重复”》
导语
让 Claude 操作电脑和浏览器,难点不在“模型会不会理解任务”,而在整条执行链能不能稳定复现:截图分辨率、坐标缩放、点击目标大小、thinking effort、提示注入防御、上下文压缩、长任务规划和可演示工作流,都会决定一个 Agent 是偶尔能用,还是能进生产环境。
1. 点击精度是一切电脑操作的地基
电脑使用集成的第一原则是点击必须准。Claude 看到截图后,会在你指定的 display_width_px / display_height_px 坐标系中返回点击位置;但 API 对图像大小有内部处理限制。Claude 4.6 系列限制是长边 1568px、总像素 1.15MP;Opus 4.7 提高到长边 2576px、总像素 3.75MP。
如果截图超过限制被 API 静默缩小,模型看到的是降采样图,harness 执行的却是原始坐标系,点击偏移就会成为系统性错误。最有效的修正不是复杂提示词,而是先把截图缩放到限制内,再把模型返回坐标按比例映射回真实屏幕。
Beta Free
注册芝士内参,免费阅读全部文章
内测期全部免费开放,正式版 ¥9.9/月 · ¥99/年。
我的笔记
✍️ 写下你的想法,自由记录即可。如果没有灵感,试着回答上方的费曼输出问题。
登录后可记笔记
登录后可保存笔记、高亮、划线和批注。