从文本到屏幕:“Project Jarvis”们能实现 AGI 吗?

机器之能11-02

本文来自PRO会员通讯内容,文末关注“机器之心PRO会员”,查看更多专题解读。

推进自主 AI Agent 的发展是今年人工智能领域公司最重要的技术趋势之一。Gartner 预测,到 2028 年,至少 15% 的日常工作决策将通过 AI Agent 完成。

微软谷歌、Anthropic 等公司近期陆续推出 AI Agent 及相关功能,使用 AI Agent 帮助用户自主操控计算机、手机等智能设备。

这些 AI 头部公司在 AI Agent 方面的动作有何异同?使用AI Agent 操控计算机、手机等智能设备这事可行吗?

目录

01. AI Agent 的下一个方向:用 AI 操控计算机,RPA Agent 成为更实际的落地方向

头部 AI 公司为何都在做 AI 自主计算机操控?这事可行吗?和 RPA 的区别是什么?

02. 微软、谷歌、Anthropic 等 AI 头部公司近期在 AI Agent 方面有哪些动作?

微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同?

03. AI Agent 能力突破有限:近期研究主要集中在屏幕解析方面

AI Agent自主操控计算机需要具备哪些能力?

04. 让 AI Agent 使用人类所有工具来完成任务仍是畅想

为什么说 AI Agent 实际能用还有一段距离

 01   AI Agent 的下一个方向:用 AI 操控计算机,RPA Agent 成为更实际的落地方向

1、推进自主 AI Agent 的发展是今年人工智能领域公司最重要的技术趋势之一。Gartner 预测,到 2028 年,至少 15% 的日常工作决策将通过 AI Agent 完成。

2、微软、谷歌、Anthropic 等公司近期陆续推出 AI Agent 及相关功能,使用 AI Agent 帮助用户自主操控计算机、手机等智能设备。[1]

① 微软近期在 Dynamics 365 业务线应用程序中推出了 10 款用于销售、运营和服务的 AI Agent,可以自动执行任务,如筛选潜在客户、监控供应商表现、管理客户意图和知识库等;同时,11 月还将在 Copilot Studio 中开启自主创建 Agent 的功能,客户可以根据自己的需求自主构建 Agent,用于处理客户查询、识别销售线索和管理库存等。[2]

② Anthropic 近期推出了升级版的 Claude 3.5 Sonnet,该模型支持计算机使用功能,能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。[3]

③ 据 The Information 报道,谷歌也将开发可控制计算机的 AI 系统“Project Jarvis”,通过截取和解释屏幕截图,然后点击按钮或输入文本,帮助人们“自动执行日常的基于网络的任务”。[4]

④ 此外,智谱发布了应用 AutoGLM,能让 AI 像人类一样操作电脑和手机的成果。用户可以通过简单的指令让 AutoGLM 自动完成多种任务,如阅读网页信息、电商购物、点外卖、订酒店、社交媒体互动。[5]

3、使用 AI Agent 来自主操控计算机等智能设备正在成为近期科技巨头、头部创企们发力的重点方向。

① 除了上述提到的进展,微软也推出了 Copilot Vision,可让用户与 Agent 讨论正在浏览的网页;苹果推出的 Apple Intelligence 系统将在明年实现用 Agent 了解屏幕内容并为用户跨应用程序执行操作;OpenAI 被曝正在测试可以使用 Windows 电脑的 Agent。

4、随着 LLM 等技术的进一步发展,AI Agent 的研究方向逐渐从用于处理耗费人类时间和精力的日常任务,转向能够自主监控和管理系统的下一个级别的 AI Agent。

① 微软研究院负责人、资深计算机科学家 Peter Lee 认为,目前自主 AI Agent 的研究发展方向为能够规划和执行复杂任务、与其他 AI Agent 协作并从他们的行为中学习。需要解决的核心问题是实现 AI Agent 的自主性和协作性。[6]

② 根据吴恩达提出的四种 AI Agent 设计模式,现有的大厂、创企推出的 AI Agent 相关落地应用或功能主要集中在工具使用方面,即 Agent 利用外部工具,如网络搜索、代码执行等,来帮助收集信息、采取行动或处理数据。[7]

5、但实现 AI Agent 的自主性、通用泛化能力的突破仍有距离。受限于现有 AI Agent 执行能力的局限,以及各家科技巨头、大厂的业务对于 RPA(机器人流程自动化)的需求,近期微软、Anthropic 等推出的 AI Agent 更偏向于 RPA Agent。“UI+API 自动化”成为目前阶段大幅提升 AI Agent 执行能力的重要落地方向。

6、传统的 RPA 与 AI Agent 的主要区别:从任务类型角度来看,传统的 RPA 用于帮助使用者处理如数据输入、发票处理等自动化重复任务,AI Agent 在此基础之上,能够处理更加复杂、不可预测的认知任务;从灵活性和适应性角度来看,RPA 通常涉及预定义的工作流程,明确定义的程序或步骤,AI Agent 则是通用性,能够学习和适应新的任务或环境。

7、随着 AI 技术的发展,RPA 与 AI Agent 技术的融合成为 RPA 厂商或巨头大厂们的趋势。据 Gartner 发布的《2024 机器人流程自动化(RPA)魔力象限》报告,预计到 2025 年,90%的 RPA 供应商将整合生成式 AI 技术,进一步提升自动化的智能化水平。基于 AI Agent 技术,RPA 不是简单地遵循预定义的规则和工作流程,而是可以从数据中学习、识别模式并做出决策,能够自动执行更复杂的认知任务。[8] 

 02   微软、谷歌、Anthropic 等 AI 头部公司近期在 AI Agent 方面有哪些动作?

不管是微软、谷歌等科技巨头,还是 OpenAI、Anthropic 等 AI 创企,各家公司在 AI Agent 方面的相关研究及布局,均是为其已有或重点业务方向所服务。

表:不完全统计美 AI 头部公司近期在 AI Agent 方面的相关动作

1、微软:面向企业客户,服务于生产力和业务流程业务板块[2]

1)微软推出的 AI Agent 应用于其 Dynamics 365 业务线应用程序,用于销售、运营和服务,主要为企业客户服务......

 关注🏻“机器之心PRO会员”,前往“收件箱”查看完整解读 


👀 往期回顾 👀 

 01  微调失格?持续反向传播算法将解锁新的训练范式吗?

当前深度学习有什么根本缺陷?微调将来不存在了?Dynamic DL 是什么?反向传播算法是什么?持续学习在 LLM中有哪些进展?反向传播算法会解锁新的训练范式吗?...

 02  从卷文本到卷多模态:国内的大模型公司都在忙什么?

MLLM 和 LMM 两种不同思路,哪种更有可能实现多模态交互?未来的通用智能是否一定是多模态智能?在多模态的竞争中,AI 大模型创企、科技大厂、多模态大模型服务厂商推出的产品表现如何?在布局上,有哪些异同?为什么说虽然产品数据表现亮眼,但距离实现 PMF 还仍有很长的一段路要走?...

 03  Scaling 范式变了?Self-Play 还值得 All In 吗?

OpenAI 的 o1 模型有质的突破吗?Scaling Law 的范式要变了吗?Self-Play 在新范式中重要吗?传统 Self-Play 技术发展如何?Self-Play+LLM 已经能训出更强的模型了吗?...

 04  Machine Psychology,解构 LLM 还是心理学更靠谱吗?

什么是 Machine Psychology?为什么要做 Machine Psychology?做 Machine Psychology 有哪些路线?哪些心理学理论可以用于 LLMs 研究?Machine Psychology 要如何应用?Machine Psychology 下一步要怎么走?...

更多往期专题解读内容,关注“机器之心PRO会员”服务号,点击菜单栏“收件箱”查看。

免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法