人工智能的新里程碑:Operator如何改变我们的工作方式
2024年10月,Claude 3.5 Sonnet推出了一项突破性功能——计算机使用能力(computer use)。开发者可以指导Claude像人类一样使用电脑,执行查看屏幕、移动鼠标、点击按钮、输入文字等任务。这一功能使得Claude能够自动完成复杂的操作,如浏览网页、查找信息、填写表格,甚至进行软件测试和开发。屏幕上仿佛有一个真人在远程操控,而用户只需静观其变。
2025年初,OpenAI在直播活动中发布了一款市场期待已久的AI智能体——Operator。与传统的“问一答一”式聊天机器人不同,Operator能够在用户的有限监督下,按照设定完成任务,这被视为AI生产力的下一个里程碑。
什么是Operator?
Operator由名为CUA(计算机使用代理)的新模型驱动,结合了GPT-4o的视觉能力和通过强化学习实现的高级推理。Operator能够“看见”网页(截图),并使用鼠标和键盘进行互动。在操作中遇到困难时,模型会调用推理能力进行自我纠正,若仍无法解决问题,则将控制权交还给人类。
Operator的实际应用
Operator的界面与ChatGPT类似,但其最大区别在于调用“AI代理”完成用户命令。在演示案例中,用户只需输入“给我预订XX饭店今晚19点的桌子”,Operator便会自动打开网页,进入预订网站,搜索餐厅并完成预订。如果19点的桌子已被订完,AI会询问“19点45分的桌子还有,要不要订?”。
目前局限与未来展望
尽管Operator已经是市面上最强大的AI代理,但OpenAI提醒用户,与人类相比仍有差距。在使用浏览器的基准测试中,Operator的评分仅为58.1%,而人类能达到78%。目前,Operator擅长处理短任务和重复性操作,但在复杂任务(如幻灯片制作、日历管理)上表现不佳。此外,其光学字符识别(OCR)系统在处理长DNA序列、随机字符串或复杂代码时表现不佳。
然而,AI技术正在快速进化。预计到2025年底,各大AI公司推出的AI智能体将能够熟练操作电脑,实现更高效的人机互动。