AI公司一直在努力开发能够像人类一样操作电脑的编码代理:点击按钮、滚动页面、移动光标。这个前景很诱人,但实现起来一直比较笨拙。目标是让代理能够像人一样操作软件,尤其是在那些缺乏干净API或集成接口的Web应用和企业工具中。
然而,这些现有系统仍显繁琐,常常会独占浏览器会话,并一次只处理一个屏幕上的任务。这正是OpenAI通过Codex的全新Chrome扩展试图解决的问题。
周四推出的Codex Chrome扩展,允许代理直接在用户的实时浏览器会话中运行,使其能够访问已登录的网站、多个标签页和经过认证的工作流,而无需完全接管桌面。
该扩展将Chrome连接到Windows和macOS上的Codex应用,使代理能够利用用户现有的浏览器状态、cookies和登录会话,与Gmail、Salesforce、LinkedIn和内部Web应用等工具进行交互。
这项发布建立在OpenAI在4月份Codex中引入的“计算机使用”功能之上。此前,该功能允许代理在用户在机器上处理其他任务时,在后台操作桌面应用和浏览器。
然而,OpenAI现在正在更清晰地区分通用计算机使用系统和更侧重于浏览器的方案。
以前,Codex在与浏览器工作流交互时,主要依赖结构化插件或更广泛的计算机使用工具。插件仍然是首选途径,因为它们允许Codex直接与Slack、Gmail和GitHub等服务协作,而无需手动导航其界面。
但许多工作流仍然存在于完整的Web应用程序、内部仪表板或经过认证的浏览器会话中,这些是代理无法通过单纯的集成轻松访问的。
在发布配套的演示视频中,OpenAI开发者体验负责人Dominik Kundel表示,新扩展避免了许多计算机使用系统中常见的传统“截图、推理、移动鼠标”循环。在那种模式下,代理会重复分析屏幕上可见的内容,然后决定下一步点击哪里。
虽然Codex已经可以通过OpenAI现有的计算机使用功能操作Chrome,但它实际上将浏览器视为任何其他桌面应用程序,一步一步地进行视觉交互。新扩展则是将Codex直接连接到Chrome本身,使其能够并行处理多个标签页、登录会话和浏览器任务。
这种差异至关重要,因为现代软件工作越来越多地发生在基于浏览器的SaaS工具、内部仪表板和经过认证的企业环境中。