ChatGPT Agent
扫码查看

使用语音和文字操作智能体完成电脑操作

ChatGPT Agent

综合介绍

ChatGPT Agent是OpenAI推出的一项新功能,它将ChatGPT从一个对话工具,转变为一个可以为您执行复杂电脑任务的智能体。 这项功能融合了之前Operator项目的网站操作能力和Deep Research项目的信息分析能力,让AI不仅能“说”,还能“做”。 您可以用简单的语言命令它,比如“分析三个竞争对手并制作成简报”,或者“查看我的日历,为接下来的客户会议总结要点”。 它会在一个专属的虚拟电脑环境中,自主地浏览网页、筛选信息、运行代码,甚至创建可编辑的简报和电子表格来完成您的要求。 整个过程,您都可以实时查看,并随时介入、暂停或完全接管。 OpenAI设计了严格的安全机制,在执行购买、提交表单等敏感操作前,智能体会征求您的许可,确保最终控制权始终在您手中。

功能列表

  • 虚拟电脑环境: 智能体在一个隔离的虚拟电脑环境中执行任务,可以像人一样浏览网页、点击按钮、填写表单和输入文字。
  • 多工具整合: 智能体能够自主选择并使用最合适的工具来完成任务,包括用于图形化操作网站的视觉浏览器、处理简单查询的文字浏览器和直接存取API的机制。
  • 任务自动化: 能自动执行重复性高的工作,例如:根据要求制作简报、规划和预订差旅行程、在不改变格式的前提下更新财务报表数据等。
  • 深度研究与分析: 能够执行多步骤的研究任务,整合网络信息,进行数据分析,并生成结构化的报告或文档。
  • 可编辑内容输出: 可以创建内容精美的输出,例如PPT简报和Excel电子表格,并且其中的图表、文字等元素都是可以轻松编辑的。
  • 协同与交互: 用户在任务执行过程中可以随时中断,提供更明确的指示或调整方向,智能体会根据新信息继续执行,而不会丢失进度。
  • 连接器支持: 可以利用ChatGPT连接器(Connectors)安全地访问用户授权的第三方应用信息,如Gmail、Google Calendar等,以获取完成任务所需的上下文。
  • 安全与用户控制: 在执行提交表单、预订或购物等敏感操作前,会明确征求用户许可。同时,用户可以随时接管浏览器亲自操作,或完全停止任务。

使用帮助

ChatGPT Agent将复杂的AI能力整合成一个简单易用的功能,让您无需编程,仅通过对话就能委派AI完成跨越多应用、多步骤的复杂工作。

如何启用ChatGPT Agent

  1. 登录您的ChatGPT账户。目前该功能已向Pro、Plus和Team方案用户逐步开放。
  2. 在对话框的工具菜单中,选择“智慧体模式”(Agent Mode)。
  3. 或者,您可以直接在对话框中输入指令 /agent 来快速启用。

基本操作流程

启用智能体模式后,您可以开始下达指令。核心理念是,像对一位人类助理说话一样,清晰地描述您的任务目标。

第一步:下达初始指令您的指令可以简单,也可以复杂。例如:

  • 简单任务:“帮我查一下明天去上海的航班,选择下午出发,价格最便宜的。”
  • 复杂任务:“我的日历里下周三有一个和ABC公司的会议,请帮我研究一下这家公司的最新动态、主要产品和三位高管的背景,并整理成一个5页的PPT简报。”

第二步:观察与互动任务开始后,您会看到一个界面,实时显示智能体的操作过程和思考逻辑(Chain-of-thought)。

  • 实时画面: 屏幕上会展示智能体正在浏览的网页或操作的应用界面。
  • 操作日志: 旁边会有一列文字,描述它正在做什么,比如“正在访问公司官网”、“正在筛选新闻稿”等。
  • 请求许可: 当需要登录网站或执行关键操作(如确认预订)时,智能体会暂停并弹出请求,等待您的确认。例如,它会提示您接管浏览器以安全输入密码。
  • 中途干预: 如果您发现它的执行路径有偏差,可以随时暂停任务,输入新的指示来纠正它。例如,当它在研究公司背景时,您可以补充一句:“重点关注他们近半年的AI领域投资”。智能体会理解并采纳您的新要求。

第三步:获取并使用结果任务完成后,智能体会将最终成果交付给您。

  • 文件下载: 如果任务是制作简报或电子表格,它会提供可下载的文件。这些文件是可编辑的,方便您进行后续修改。
  • 信息总结: 如果是研究任务,它会提供一份总结报告。
  • 任务回放: 您可以回顾智能体完成任务的每一步操作,这对于理解其工作流程和未来优化指令非常有帮助。

实用技巧

  • 指令要清晰: 指令越具体,智能体执行的准确率越高。避免使用模糊的词语。例如,不要只说“帮我订个酒店”,而是说“帮我在上海静安区预订一家下周五入住、下周日退房、价格在1000元以内、评分高于4.5分的酒店”。
  • 利用连接器: 在设置中连接您的Google Calendar、Gmail等常用应用。这样,当您下达“帮我看看今天下午有哪些会议,并为第一个会议总结相关邮件”这类指令时,智能体可以直接读取信息并执行,无需您手动提供。
  • 从简单任务开始: 如果您是初次使用,可以先从一些简单的任务开始,例如“总结这篇网页的内容”或“把这段文字翻译成英文”,熟悉其工作方式后再逐步尝试更复杂的任务。
  • 注意隐私安全: 尽管OpenAI设计了多重安全保障,但在处理高度敏感的个人或公司数据时仍需谨慎。对于不希望AI访问的信息,建议不要授权连接器,或在任务结束后及时在设置中删除浏览数据并登出所有网站。

应用场景

  1. 职场办公作为一名市场分析师,您需要定期制作竞争对手的动态分析报告。过去,这需要花费数小时浏览财报、新闻稿和社交媒体。现在,您可以直接对ChatGPT Agent说:“请帮我分析A公司、B公司和C公司上个季度的市场表现、新产品发布和用户评价,并生成一份包含关键数据图表的PPT。”智能体会自动完成信息搜集、数据整合和简报制作的全过程。
  2. 个人生活您正在计划一次家庭旅行。您可以对智能体说:“我们一家三口想在八月份去云南玩一周,预算两万元,喜欢自然风光和少数民族文化,请帮我规划一个详细的行程,包括机票、酒店、每日活动和交通建议,并预估总费用。”智能体会可以为您搜索航班、筛选酒店、设计路线,并将所有信息整理成一份清晰的旅行计划。
  3. 学术研究作为一名学生或研究人员,您需要快速了解一个新的研究领域。您可以上传几篇核心论文,然后指令:“请阅读这几篇论文,总结它们的核心论点、研究方法和主要发现,并找出该领域目前尚未解决的关键问题。”智能体可以帮您快速消化大量文献,提炼关键信息,为您的研究提供起点。
  4. 内容创作您是一位需要定期发布内容的博主。您可以给智能体一个主题,例如“介绍最新的AI技术在教育领域的应用”,然后指令它:“围绕这个主题,在网上查找资料,撰写一篇大约1500字的博客文章,要求结构清晰、案例丰富。”智能体可以完成从资料研究到草稿撰写的整个流程。

QA

  1. ChatGPT Agent和普通的ChatGPT有什么区别?普通的ChatGPT主要是一个对话式的语言模型,它根据您的提问生成文字回答。而ChatGPT Agent是一个“智能体”,它不仅能理解您的意图,还能在一个虚拟电脑环境中实际“动手”操作,例如浏览网站、运行代码、创建文件,来完成您交代的任务。
  2. 使用ChatGPT Agent安全吗?我的数据会被如何处理?OpenAI强调了该功能的设计核心是安全与用户控制。智能体在执行购买、登录等敏感操作前必须获得您的明确许可。 所有操作在远程浏览器中进行,您输入的内容不会被储存在ChatGPT服务器上。您也可以随时在设置中清除所有浏览数据。
  3. ChatGPT Agent可以操作我电脑上的所有软件吗?不可以。ChatGPT Agent在一个由OpenAI提供的、隔离的虚拟电脑环境中运行,它不能直接访问或操作您本地电脑的文件和应用程序。 它的操作范围限于其虚拟环境中的浏览器和提供的工具。
  4. 所有用户都可以使用ChatGPT Agent吗?目前,该功能正逐步向ChatGPT Pro、Plus和Team方案的付费用户开放。未来计划向Enterprise和Education方案用户提供。免付费用户暂时无法使用。
  5. 如果智能体在执行任务时出错了怎么办?您可以随时暂停或中止任务。 您可以给出更明确的指示来纠正它的行为,或者直接选择“接管浏览器”,亲自完成那一步操作,然后再让它继续。这种人机协作的模式是其核心设计之一。
微信微博Email复制链接