从文本到屏幕：“Project Jarvis”们能实现 AGI 吗？_老虎社区_美港股上老虎

从文本到屏幕：“Project Jarvis”们能实现 AGI 吗？

机器之能11-02

本文来自PRO会员通讯内容，文末关注“机器之心PRO会员”，查看更多专题解读。

推进自主 AI Agent 的发展是今年人工智能领域公司最重要的技术趋势之一。Gartner 预测，到 2028 年，至少 15% 的日常工作决策将通过 AI Agent 完成。

微软、谷歌、Anthropic 等公司近期陆续推出 AI Agent 及相关功能，使用 AI Agent 帮助用户自主操控计算机、手机等智能设备。

这些 AI 头部公司在 AI Agent 方面的动作有何异同？使用AI Agent 操控计算机、手机等智能设备这事可行吗？

01. AI Agent 的下一个方向：用 AI 操控计算机，RPA Agent 成为更实际的落地方向

头部 AI 公司为何都在做 AI 自主计算机操控？这事可行吗？和 RPA 的区别是什么？

02. 微软、谷歌、Anthropic 等 AI 头部公司近期在 AI Agent 方面有哪些动作？

微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同？

03. AI Agent 能力突破有限：近期研究主要集中在屏幕解析方面

AI Agent自主操控计算机需要具备哪些能力？

04. 让 AI Agent 使用人类所有工具来完成任务仍是畅想

为什么说 AI Agent 离实际能用还有一段距离

01 AI Agent 的下一个方向：用 AI 操控计算机，RPA Agent 成为更实际的落地方向

1、推进自主 AI Agent 的发展是今年人工智能领域公司最重要的技术趋势之一。Gartner 预测，到 2028 年，至少 15% 的日常工作决策将通过 AI Agent 完成。

2、微软、谷歌、Anthropic 等公司近期陆续推出 AI Agent 及相关功能，使用 AI Agent 帮助用户自主操控计算机、手机等智能设备。[1]

① 微软近期在 Dynamics 365 业务线应用程序中推出了 10 款用于销售、运营和服务的 AI Agent，可以自动执行任务，如筛选潜在客户、监控供应商表现、管理客户意图和知识库等；同时，11 月还将在 Copilot Studio 中开启自主创建 Agent 的功能，客户可以根据自己的需求自主构建 Agent，用于处理客户查询、识别销售线索和管理库存等。[2]

② Anthropic 近期推出了升级版的 Claude 3.5 Sonnet，该模型支持计算机使用功能，能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息，模仿人类与计算机的交互方式。[3]

③ 据 The Information 报道，谷歌也将开发可控制计算机的 AI 系统“Project Jarvis”，通过截取和解释屏幕截图，然后点击按钮或输入文本，帮助人们“自动执行日常的基于网络的任务”。[4]

④ 此外，智谱发布了应用 AutoGLM，能让 AI 像人类一样操作电脑和手机的成果。用户可以通过简单的指令让 AutoGLM 自动完成多种任务，如阅读网页信息、电商购物、点外卖、订酒店、社交媒体互动。[5]

3、使用 AI Agent 来自主操控计算机等智能设备正在成为近期科技巨头、头部创企们发力的重点方向。

① 除了上述提到的进展，微软也推出了 Copilot Vision，可让用户与 Agent 讨论正在浏览的网页；苹果推出的 Apple Intelligence 系统将在明年实现用 Agent 了解屏幕内容并为用户跨应用程序执行操作；OpenAI 被曝正在测试可以使用 Windows 电脑的 Agent。

4、随着 LLM 等技术的进一步发展，AI Agent 的研究方向逐渐从用于处理耗费人类时间和精力的日常任务，转向能够自主监控和管理系统的下一个级别的 AI Agent。

① 微软研究院负责人、资深计算机科学家 Peter Lee 认为，目前自主 AI Agent 的研究发展方向为能够规划和执行复杂任务、与其他 AI Agent 协作并从他们的行为中学习。需要解决的核心问题是实现 AI Agent 的自主性和协作性。[6]

② 根据吴恩达提出的四种 AI Agent 设计模式，现有的大厂、创企推出的 AI Agent 相关落地应用或功能主要集中在工具使用方面，即 Agent 利用外部工具，如网络搜索、代码执行等，来帮助收集信息、采取行动或处理数据。[7]

5、但实现 AI Agent 的自主性、通用泛化能力的突破仍有距离。受限于现有 AI Agent 执行能力的局限，以及各家科技巨头、大厂的业务对于 RPA（机器人流程自动化）的需求，近期微软、Anthropic 等推出的 AI Agent 更偏向于 RPA Agent。“UI+API 自动化”成为目前阶段大幅提升 AI Agent 执行能力的重要落地方向。

6、传统的 RPA 与 AI Agent 的主要区别：从任务类型角度来看，传统的 RPA 用于帮助使用者处理如数据输入、发票处理等自动化重复任务，AI Agent 在此基础之上，能够处理更加复杂、不可预测的认知任务；从灵活性和适应性角度来看，RPA 通常涉及预定义的工作流程，明确定义的程序或步骤，AI Agent 则是通用性，能够学习和适应新的任务或环境。

7、随着 AI 技术的发展，RPA 与 AI Agent 技术的融合成为 RPA 厂商或巨头大厂们的趋势。据 Gartner 发布的《2024 机器人流程自动化（RPA）魔力象限》报告，预计到 2025 年，90%的 RPA 供应商将整合生成式 AI 技术，进一步提升自动化的智能化水平。基于 AI Agent 技术，RPA 不是简单地遵循预定义的规则和工作流程，而是可以从数据中学习、识别模式并做出决策，能够自动执行更复杂的认知任务。[8]

02 微软、谷歌、Anthropic 等 AI 头部公司近期在 AI Agent 方面有哪些动作？

不管是微软、谷歌等科技巨头，还是 OpenAI、Anthropic 等 AI 创企，各家公司在 AI Agent 方面的相关研究及布局，均是为其已有或重点业务方向所服务。

表：不完全统计美 AI 头部公司近期在 AI Agent 方面的相关动作

1、微软：面向企业客户，服务于生产力和业务流程业务板块[2]

1）微软推出的 AI Agent 应用于其 Dynamics 365 业务线应用程序，用于销售、运营和服务，主要为企业客户服务......

关注🏻“机器之心PRO会员”，前往“收件箱”查看完整解读

👀 往期回顾 👀

01 微调失格？持续反向传播算法将解锁新的训练范式吗？

当前深度学习有什么根本缺陷？微调将来不存在了？Dynamic DL 是什么？反向传播算法是什么？持续学习在 LLM中有哪些进展？反向传播算法会解锁新的训练范式吗？...

02 从卷文本到卷多模态：国内的大模型公司都在忙什么？

MLLM 和 LMM 两种不同思路，哪种更有可能实现多模态交互？未来的通用智能是否一定是多模态智能？在多模态的竞争中，AI 大模型创企、科技大厂、多模态大模型服务厂商推出的产品表现如何？在布局上，有哪些异同？为什么说虽然产品数据表现亮眼，但距离实现 PMF 还仍有很长的一段路要走？...

03 Scaling 范式变了？Self-Play 还值得 All In 吗？

OpenAI 的 o1 模型有质的突破吗？Scaling Law 的范式要变了吗？Self-Play 在新范式中重要吗？传统 Self-Play 技术发展如何？Self-Play+LLM 已经能训出更强的模型了吗？...

04 Machine Psychology，解构 LLM 还是心理学更靠谱吗？

什么是 Machine Psychology？为什么要做 Machine Psychology？做 Machine Psychology 有哪些路线？哪些心理学理论可以用于 LLMs 研究？Machine Psychology 要如何应用？Machine Psychology 下一步要怎么走？...

更多往期专题解读内容，关注“机器之心PRO会员”服务号，点击菜单栏“收件箱”查看。

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

从文本到屏幕：“Project Jarvis”们能实现 AGI 吗？

精彩评论