OpenAI 正式发布了备受期待的 AI 智能体 Operator(意为操作员),它能够代理用户执行基于网页的操作,如点击、滚动和输入文字,完成诸如购买杂货、预订餐厅以及提交费用报告等任务。
在此之前,包括 微软、Salesforce 和 Workday 等商业软件公司已纷纷推出了各自的智能体。近期,谷歌 和人工智能初创公司 Anthropic 也推出了类似的工具,它们与 OpenAI 的 Operator 相似,能够浏览网页并与菜单和按钮进行交互。
Operator 的核心优势:CUA 系统
与其他智能体相比,Operator 最大的特点是其通过 CUA 系统(计算机使用智能体)进行复杂的思维链反思和步骤规划。这一功能显著提高了其完成任务的精度和复杂性,使其无需针对具体任务进行精细调整,即可泛化完成多种复杂任务。
在直播的实机演示中,OpenAI 展示了 Operator 网购、订餐等基础操作。然而,在后续的用户测试中,它甚至能够完成在 Arxiv 上进行论文分类搜索、阅读多篇论文并整理综述的复杂任务,这些工作显然无法被传统的“意图理解”框架所涵盖。
此外,CUA 在网页控制和系统控制方面达到了 SOTA(当前最优技术水平)。虽然与人类操作仍有差距,但在演示中其整体行动相当流畅。
Operator 的发布与推广计划
目前,Operator 以“研究预览”的形式向美国 ChatGPT Pro 用户开放,订阅费用为每月 200 美元。这一服务专为需要高级 AI 功能的专业用户设计,提供无限制访问包括 GPT-4o 和 o1 在内的高级模型。
OpenAI 计划将 Operator 功能逐步推广到 ChatGPT Plus、Team 和 Enterprise 用户。在直播活动中,OpenAI 首席执行官 山姆·奥特曼(Sam Altman)提到,Operator 将很快在其他国家推出,但欧洲地区可能需要更长时间。
OpenAI 首席运营官 布拉德·莱特卡普(Brad Lightcap)表示,Operator 在家庭和工作中具有节省时间的“巨大潜力”,尤其是在自动化常见任务方面。他指出:“Operator 从根本上改变了人们与计算机的交互方式。这是一个艰巨的技术挑战,其价值取决于它的实用性。”
此外,OpenAI 正在与包括 Instacart、Uber、eBay、Priceline、OpenTable 和 Etsy 在内的科技公司合作,以便让用户在 Operator 主页上更便捷地访问这些公司的网页。
CUA 的工作原理
Operator 背后的核心技术是 CUA(Computer-Using Agent),它结合了 GPT-4o 的视觉能力与通过强化学习实现的高级推理能力。CUA 经过训练,能够像人类一样与图形用户界面(GUI)交互,包括屏幕上的按钮、菜单和文本框。这种能力使其能够灵活地执行数字任务,无需依赖特定操作系统或网页的 API。
CUA 的开发基于多年在多模态理解和推理领域的基础研究。它通过以下步骤执行任务:
- 感知:计算机的屏幕截图被纳入模型的上下文中,为模型提供计算机当前状态的视觉快照。
- 推理:CUA 通过思维链推导下一步操作,综合考虑当前和过去的屏幕截图及已执行的动作。
- 行动:CUA 执行点击、滚动或输入等操作,直至任务完成或需要用户干预。
尽管 CUA 能自动处理大多数步骤,但在涉及敏感操作(如输入登录信息或响应验证码)时,会寻求用户确认。
局限性与风险
尽管 AI 智能体潜力巨大,但其广泛应用仍面临挑战。例如,Apple Intelligence 虽已推出,但尚未被广泛使用。企业 AI 智能体也大多处于测试阶段,以避免暴露公司机密数据或引发网络安全风险。
OpenAI 指出,Operator 可能面临的风险包括恶意网站欺骗用户、用户试图欺骗代理,以及“提示注入”攻击。为应对这些风险,Operator 推出了“接管模式”,要求用户手动输入支付详情或登录信息,并在执行高风险任务(如发送邮件)前征求用户批准。