吴恩达最新演讲:除了下一代基础模型,Agent工作流如何推动更多AI进步?

近日,斯坦福大学教授、Landing AI 创始人&CEO 吴恩达(Andrew NG)在 Snowflake Dev Day 上与 Snowflake CEO Sridhar Ramaswamy 展开了一场对谈与演讲。

Sridhar 强调,技术应保持相对便宜,以便更多人可以开发和推动技术进步。他指出,技术既能带来好的应用,也可能被不良用途利用,因此法律应涵盖这些情况但不能过早地抑制创新。

吴恩达着重介绍了 Vision Agent(视觉智能体)的应用,通过自动化复杂的图像处理任务,展示了 AI 在计算机视觉领域的强大潜力。他认为,Agentic AI 是一个非常重要和令人兴奋的趋势。

关于 Agent 应用,他强调了 AI Agent 的工作流程使得 AI 应用从玩具新奇品走向实用化。通过迭代和反复的流程,AI Agent 可以更有效地完成复杂任务,如代码编写、文档撰写等。

此外,他还提到了在 AI 研究和应用中跨学科合作的重要性,特别是在开源项目中,他提到 Landing AI 和 Snowflake 的合作,为开源 AI Agent 的开发做出了贡献。

以下为这次演讲的全部内容,enjoy~

Andrew Ng

我记得我还是个少年时,我的第一份工作是办公室管理员。我记得那时做了很多复印工作。我就是不停地复印复印。即使在那时,作为一个少年,我就想,如果我们能做点什么来自动化所有这些复印工作,也许我可以把时间花在其他事情上。这就是为什么我想学习计算机科学和 AI 的原因。事实上,你刚才提到的,我实际上忘了,我看到你把它介绍给Google作为业务。现在你看到了一个大公司,你提到你在编写 streamlit 代码。我通过所有这些事情理解了它。

Sridhar Ramaswamy

我做到了。这实际上可以很有趣。streamlit 应用程序很有趣。我非常兴奋地观看了 Landing AI 和 Snowflake 合作的视频,我们在 LinkedIn 上共同发布的 Landing Lens。对我来说,这是纯粹的快乐。在我们谈论AI的时候,我必须问,有一个十亿美元的奇迹要来了?你认为,但人们需要,不知道,50000 个 H100s 来开始。第一步。

Andrew Ng

是的,我确实感觉到人们是这样想的。显然,我们会到达那里。部分人觉得可能会有更便宜、资本密集度更低、能耗更低的方法来构建高度智能的系统。但另一方面,我认为我们还没有充分利用所有的规模效应。所以这也是值得追求的。我只是想说,我非常感谢 Snowflake 在开源方面所做的工作。我认为我们需要更多。- 是的,更多。- 我们需要更多的贡献者来做这种事情。

Sridhar Ramaswamy

当技术广泛传播时会发生好事,当很多人都能做同样的事情时,否则它自然会落入少数人手中。这意味着我们不会获得广泛的利益。所以对我来说,这就是为什么我希望模型保持相对便宜,以便更多人可以开发。更多人可以思考或推动我们所有人前进。- 再问几个问题。你最近在美国国会,那里有关于开源模型AI监管的辩论,你对此有何看法?

Andrew Ng

是的,目前我实际上非常担心加利福尼亚州提议的SP1047法案,我认为这对开源创新非常不利。我觉得这是一层技术,一层技术,而技术对许多应用都很有用,然后是应用层,通常是特定的技术实例化以满足客户需求。对于像AI这样的通用技术,不可能阻止AI被应用于潜在的有害用途。

加利福尼亚州 SP1047 法案提出了这样的责任风险,如果有人开源了一个模型,而有人找到一种方式将其用于不良用途。我希望我们能够保证 AI 永远不会被用于不良用途。我希望我们能够保证计算机永远不会被用于不良用途。但如果你说任何计算机制造商都要对任何人使用你的计算机做坏事负责,那么唯一合理的行动就是没人再制造计算机了,那将是可怕的。

所以我认为华盛顿 DC,幸运的是,变得更聪明了。我觉得在过去的一年里,白宫的行政管理层我有一些担忧,但我认为国会和参议院变得相当聪明,舒默小组实际上理解了AI,并且更倾向于投资而不是关闭它。但我实际上非常担心在加利福尼亚州,这里是这么多AI创新的家园,有一个真正可怕的提案在案上。刚刚通过了参议院投票,接下来要到议会,如果通过的话,我觉得会很糟糕。我们拭目以待,你们所有人,去抗争。SP1047 是一个糟糕的想法。

Sridhar Ramaswamy

人们忘记了,我认为真的很重要的是重申 Andrew 刚才所说的,我们所有人需要理解,AI 是一种技术。是的,技术会带来好的事情,但也会有坏人利用技术。我们需要确保法律涵盖这些事情,但不能让技术成为英雄或恶棍,技术会有各种不同的用例,作为一个社会我们需要为此做好准备。

Andrew Ng

好的,另一个问题。要明确,我是支持有思想的监管的。我们要对有害应用进行监管。我支持有思想的保护措施,但当法规提出不可能的要求时,我认为唯一的结果就是抑制技术和创新。

Sridhar Ramaswamy

这是需要记住的事情,过早的监管会非常压抑,因为它引入了太多的风险。好吧,话题转向。你知道,无论是 GPT-3还是 4,或 Lama 模型或 Arctic,都有很大的进步。但最近的热潮,大家都在谈论的是 Agentic AI。你能告诉我们这是什么吗?

Andrew Ng

是的,我认为 AI Agent ,这一点我会在稍后的演讲中提到,正在显著扩大 AI 的应用范围。我觉得有一组AI工具和大型语言模型在工作,cortex 上的工作真的很棒。我发现,当你基于这些工具构建时,我们可以进一步扩大大型语言模型的可能性。在AI技术趋势方面,我认为对于任何构建AI的人,如果让我选择一个需要关注的事情,我会说是AI Agent 。我认为我们应该关注很多事情,但如果让我选择最重要的一件事,这可能就是它。

我的团队 Landing AI 在 Snowflake 上构建了 Landing Lens 原生应用。因为这是一个开发者大会,我想借此机会与大家分享一些关于AI Agent 的内容,这是让我非常兴奋的东西。我将分享一些以前从未展示过的内容,所以这里会有一些新东西。

AI Agent 是什么?我们很多人习惯于使用大语言模型进行零样本推理,即让它写一篇文章或回答一个问题。这有点像,你可以想象,去找一个人说:“从头到尾打字完成一篇文章,中间不能用退格键。”尽管这种写作方式很难,但它做得相当不错。

相反,一个 Agent 的工作流程要迭代得多。你可以说,写一篇关于写作的文章,然后问它做了哪些研究?如果有的话,去网上搜索一些信息,然后写初稿,再阅读你的草稿看看是否可以改进并修改草稿。Agent 的工作流程更像是这样,算法会做一些事情,做一些研究,然后修订和思考。这种迭代循环实际上会带来更好的工作成果。

如果你想象使用 Agent 来写代码,今天我们倾向于一次性编写代码,就像让一个开发者从头到尾打出程序然后运行,并且它能相当好地工作。但 Agent 的工作流程允许它工作得更好。

所以我的团队收集了一些基于编码基准测试HumanEval 的数据。HumanEval 是OpenAI几年前发布的一个标准基准测试,提供像这样的编码难题:给定一组整数,返回它们的和,答案就是解决方案。结果显示 GPT-3.5 在这个基准测试上的通过率为48%, GPT-4 表现更好,为67%。

但是,如果你把 GPT-3.5 包裹在 Agent 工作流程中,它的表现会更好。而且 GPT-4 在 Agent 工作流程中也表现得非常好。所以我希望你们从中能学到的是,从 GPT-3.5 到 GPT-4 有一个巨大的改进,但从 GPT-3.5 到 Agent 工作流程的改进更为显著。对于所有构建应用程序的人来说,这表明 Agent 工作流程有着巨大的潜力。

我的团队在 Landing AI 工作在视觉 AI 上,我想分享一些最新的东西。我以前从未展示过这些内容,我们几天前刚刚开源了关于构建 Vision Agent 的一些内容。这个项目的负责人 Dylan Layer 是一名狂热的冲浪者,他经常看冲浪视频。

这是一个冲浪者的视频,这些鲨鱼在游动。Dylan对这些视频很感兴趣,他想知道鲨鱼离冲浪者有多近。这个视频显示了鲨鱼与冲浪者的距离,当鲨鱼离冲浪者超过10米时,颜色会从红色变为绿色。

如果你要写代码来做这些事情,你需要运行对象检测、测量边界框等,这些事情很麻烦,需要几个小时的时间来编写代码。所以我想展示一下我们制作这个视频的方式,我们写了一个提示:

“你能在视频中检测到任何鲨鱼或冲浪者吗?画一条绿色线,并在研究板上显示结果。假设 30 像素等于 1 米。”

这是给 Vision Agent 的指令。Agent 会把任务分解成一系列步骤,并使用数据抓取工具进行处理。

这是给 Vision Agent 的指示。DOM 按照这些指示提供正确的步骤。因此,将这些任务分解成一系列步骤。确保使用你的 daystrap 框架来分隔这些步骤。以下是完成此任务的步骤序列。接下来,检索工具,工具指的是函数调用。例如,在保存视频时,调用保存列表的实用函数,然后我们检索保存视频或保存视频函数的详细描述,对于其他工具也是如此。

测量冲浪者与冲浪板之间的距离,并基于此自动生成代码,当运行时,会生成你刚才看到的视频。接下来,我想更深入地探讨这个过程的工作原理。我们建立了 Vision Agent ,其工作方式如下:你输入一个提示词。这是一个比我刚刚使用的更简单的提示词。但目标是计算冲浪者与冲浪板之间的距离。

我们 Vision Agent 的目标是编写代码来执行你提示的任务,以便你可以提供单个图像并生成所需的结果。与编写非图像代码的 Agent 工作流类似,我们发现这种方法在许多应用中比零样本提示效果更好。

此外,我们发现对于许多图像用户,例如,如果在 Snowflake 中有 10 万张图像,那么拥有一段代码能够非常高效地运行在大量图像上也很重要,因为一旦你有了代码,你可以处理大量图像或制作视频帧,并通过一段相对高效的代码来处理并得到答案。

我想和你们分享 Vision Agent 的工作原理并征求反馈,帮助我们改进它。Vision Agent 是由两个 Agent 组成的,一个是 Coder Agent ,另一个是 Tester Agent 。使用这样的提示词时, Coder Agent 首先运行一个计划器,列出完成任务所需的所有步骤。你会知道,图像用户工具用于检测对象、计算距离等等,然后它检索每个工具的详细描述,工具指的是函数,最后生成代码。

也许有些部分看起来有点神奇,但所有代码并非如此。看看我们使用的具体提示词,你可能会对细节感到惊讶,第一次看到可能会觉得很神奇。但看看代码和提示词,事实证明,当你这样做时,你必须感受演示。

这告诉每个图像用户,她戴着面具,或者用 Python 字典。所以,在代码的某一步中,这里是一个 Python 字典,有八个人戴着面具,两个人没戴。

这里是生成可视化图检测的另一个提示词。这是一个新生成的代码,自动完成的。实际上,我错过了未戴面具的人,物体检测功能找到了未戴面具的人。再举一个例子,这个有点有趣。我说每两秒钟生成一次视频,生活是一场奇迹输出 Jason,显示是否有奇迹。

因此,合约视频总是,哇,我认为几乎受伤,但 16 秒的视频。它来了,有一辆车。幸运的是,没有人受伤,我认为。按照这样的做法,这里是右边的代码。处理视频并输出 Jason,显示在这个时间戳,没有合约,在这个时间戳,有合约。因此,我从内部团队和一些用户那里听到的反馈是,我本可以自己编写代码,但可能需要几个小时,现在你可以在几分钟内完成。我终于计算出,使用计算机视觉,我们使用了很多不同的函数,坦白说,我永远记不住。

我们所使用的函数是什么语法,这确实使得构建视觉应用程序的过程变得更容易。当它工作时,我想分享另一件使其更加完善的事情,那就是 Tester Agent 。我展示了 Coder Agent。事实证明,你可以提示一个 LOM 来编写一些测试代码,并基于这些测试代码执行测试。目前,我们的测试代码通常是类型检查,坦率地说,这有点有限。但即便如此,我们也可以执行测试代码,如果测试代码失败,将输出反馈给 Coder Agent,让它进行反思和重写代码,从而进一步提升性能。

我还应该提到,在学术文献方面,我们经常展示的两篇研究论文是 Juan Loll 撰写的《Agent Code》论文和《Data Interpreter》论文。如果你想了解这些技术,可以看看这些论文。接下来,我将展示一个长时间的演示,这是为了展示每两秒乘以的概念。我们希望它能突出显示。

因此,这实际上是用于 CCTV 视频的测试,将它们组合在一起的视频。常见的需求是希望突出显示视频中的有趣部分。这是一个长时间的 YouTube 链接。它会创建指示,检索工具。事实证明,代码有时不起作用。

代码可能会多次失败,例如在运行时,这里有一个索引错误追踪。所有这些错误信息都会反馈给LOM,第二次失败,第三次失败。第三次失败后,系统需要安装 pi2 库。最后,修复方法是执行pip install pi2,然后代码成功运行。这样就能在 CCTV 长视频中突出显示有超过 10 辆车的部分。

我们最近构建了一个名为Landing Lens 的系统,这是一个监督学习的计算机视觉系统,作为 Snowflake 原生应用程序。通过监督学习,我们能够减轻一些错误。

系统在复杂推理方面表现不佳。例如,如果你说每只鸟重半公斤,系统会天真地检测到所有的鸟,但不会意识到一只鸟在飞翔,不会给围栏增加重量。事实证明,如果你修改提示,系统可能会正确猜测。

如果你喜欢今天的 Vision Agent ,我们将发布它的测试版,有时它有效,有时无效。提示词的措辞对结果有很大影响,有时你需要调整提示词以更加具体地描述步骤。因此,我不会说这是非常出色的软件,但有时它确实有效。我对结果感到非常高兴和惊讶。

这个核心引擎也是开源的。我认为 AI Agent 是一个非常重要和令人兴奋的趋势,我们正为开源做出一点贡献,希望能帮助大家。我希望通过共同努力,我们能够大大改进 Agent ,并显著提高我们作为开发者的能力。

在我们的 Agent 中,我已经被用于许多不同的应用。我觉得你们中的一些人可能已经在社交媒体上看到了 Devon 的动态,尽管关于那个公告的性质还有一些讨论。但这个开放的 Devon 是一个开源代码 Agent ——它有很多关于 Coder Agent 的研究。

我看到团队在做法律工作,例如,分析复杂的法律文件,使用 Agent 分析复杂的法律文件。我认为 AI 研究 Agent , Agent 去互联网进行网页搜索,综合大量信息并编写文档,与 Dev Research 一起。这真的很受欢迎。我其实玩了很多,使用类似 QAI、AutoGen、Langdraft 这样的 Agent 平台。

我正在让很多人构建许多基于这些框架的应用。而现在,我发现许多 Agent 往往是为特定目的而构建的。但有趣的是,是否会有一个单一的通用 Agent 。我觉得这很令人兴奋。

对于很多 Agent ,我认为我们刚刚跨过了从玩具新奇到实用的门槛。例如,AI 研究 Agent ,我在日志中给出,我将进行网页搜索,为你写研究论文。

我觉得大约三个月前,它很适合玩,但就在过去的几个月里,我的朋友 Monica Blan 来自斯坦福,她的研究实验室发布了 Storm,这是一个开源软件,这实际上会很有用。所以我认为就在过去的几个月里,我看到很多这些应用程序不再只是有趣的新奇事物,而是变得非常有用了。

转载请注明出处华人站华人新闻,华人中文网 » 吴恩达最新演讲:除了下一代基础模型,Agent工作流如何推动更多AI进步?

条留言  
给我留言