AI Agent Automatically Codes WITH TOOLS - SWE-Agent Tutorial ("Devin Clone")

Matthew Berman

5 Apr 202413:59

Summary

TLDR视频介绍了一款名为Swe-Agent的新型编程助手，由普林斯顿大学团队开发，专注于修复GitHub上的现实世界bug。Swe-Agent通过GPT-4技术，能够理解GitHub问题URL，复制问题，修复并提交PR。它具备代码编辑器、文件查看器等功能，并通过Docker和conda简化安装过程。尽管遇到了一些技术障碍，但Swe-Agent在解决编程问题上展现出了巨大潜力。

Takeaways

🌟 介绍了一种全新的编程助手SWE Agent，由普林斯顿大学团队开发，专注于修复GitHub上的现实世界中的bug。
🚀 SWE Agent在短时间内获得了大量的关注和高星级评价，表明其性能和潜力受到认可。
🔍 SWE Agent通过分析GitHub问题URL，复制问题，修复并提交PR，展示了其强大的问题解决能力。
📈 与现有的编程助手相比，SWE Agent在性能测试中接近Devon，显示出其高效的问题解决能力。
🛠️ SWE Agent通过设计简单的语言模型中心指令和反馈格式，简化了语言模型浏览代码库、编辑和执行代码文件的过程。
📋 项目特点包括运行编辑命令时的linter、特殊的文件查看器、文件编辑器以及全目录字符串搜索命令。
🔗 安装过程简化，通过Docker和conda环境，减少了Python环境管理和依赖性问题。
🎥 视频中展示了一个完整的demo，作者之一Carlos通过SWE Agent解决了一个GitHub问题并准备了修复方案。
🔎 SWE Agent在解决GitHub问题时，能够复制问题代码，定位问题所在，并进行有效的修复。
📊 通过测试，SWE Agent提交的修复方案通过了SWeBench测试，证明了其解决方案的有效性。
💡 尽管SWE Agent目前还不支持本地模型，但未来版本可能会增加这一功能，进一步提升用户体验。

Q & A

SWE Agent是什么？
-SWE Agent是一个由普林斯顿大学团队开发的新型编程助手，专注于修复GitHub上的现实世界中的bug和问题。
SWE Agent如何工作？
-你只需要给SWE Agent一个GitHub问题链接，它就能找出问题所在，复制问题，修复它，并作为PR提交修复。
SWE Agent的性能如何？
-SWE Agent的性能非常出色，使用GPT-4模型，在SWE Bench测试中达到了12.29%的修复成功率，与Devon的性能接近。
SWE Agent如何理解大型代码库？
-SWE Agent通过设计简单的语言模型中心命令和反馈格式，使LM更容易浏览代码库、查看、编辑和执行代码文件。
SWE Agent有哪些特点？
-SWE Agent添加了语法检查、特殊的文件查看器、文件编辑器和全目录字符串搜索命令。它还提供了一个内置的conda环境，简化了Python环境管理和依赖项管理。
如何安装SWE Agent？
-首先需要安装Docker和miniconda，然后通过VS Code克隆SWE Agent的GitHub仓库，并按照仓库中的指示设置conda环境和运行安装脚本。
SWE Agent在处理自己的GitHub问题时表现如何？
-SWE Agent能够成功识别并修复自己的GitHub问题，展示了其在查找和修复代码问题方面的能力。
SWE Agent在解决GitHub问题时的流程是怎样的？
-SWE Agent首先复制问题中的代码以重现bug，然后在代码库中搜索相关函数，分析代码并生成修复，再次运行代码以验证修复，最后提交修复作为PR。
SWE Agent在运行时遇到了哪些问题？
-在运行过程中，SWE Agent遇到了Miniconda在Apple Silicon上的兼容性问题，以及在尝试解决GitHub问题时的成本限制问题。
是否有可能使用本地模型运行SWE Agent？
-目前SWE Agent主要依赖在线模型，但未来版本可能会支持本地模型，这需要一些努力和优化。
SWE Agent的成本限制是如何设定的？
-SWE Agent的成本限制默认设置为2美元，但如果需要，可以设置更高的限额，例如10美元。

Outlines

00:00

🤖 介绍全新代码助手SWE-Agent

本段落介绍了一款名为SWE-Agent的全新代码助手，由普林斯顿大学团队开发。该助手专注于修复GitHub上的现实世界中的bug和问题，用户只需提供GitHub问题链接，SWE-Agent便能自动发现问题、复制、修复并提交修复作为PR。该工具在短时间内获得了大量的关注和好评，其性能与Devon相当，使用GPT-4开源版本，在SWE Bench测试中表现接近Devon。此外，SWE-Agent通过设计简单的语言模型中心命令和反馈格式，使语言模型更容易浏览代码库、查看、编辑和执行代码文件。

05:00

🛠 SWE-Agent的安装与使用

本段落详细描述了SWE-Agent的安装和使用过程。首先需要安装Docker和Miniconda，然后通过GitHub下载SWE-Agent项目。创建并激活conda环境，运行设置脚本构建Docker镜像。遇到Miniconda安装问题时，作者转而使用Lightning环境，该环境预装了Docker和conda。接下来，创建keys文件并输入GitHub token和OpenAI API key。最后，通过运行python run.py命令启动SWE-Agent，并尝试解决自身仓库中的一个问题，展示了SWE-Agent的工作流程和能力。

10:01

🌟 SWE-Agent的现场演示与问题解决

本段落通过作者Carlos的现场演示，展示了SWE-Agent如何解决GitHub上的一个实际问题。Carlos从一个名为simpai的项目中选取了一个关于矩阵操作的问题，并通过SWE-Agent进行修复。SWE-Agent首先复制问题代码进行复现，确认问题存在，然后在代码库中搜索相关的函数定义，分析并找到问题所在，生成并应用修复代码。通过再次运行复生产生代码验证修复效果，并最终提交修复方案。整个演示过程展示了SWE-Agent的强大功能和对AI编程助手领域进步的激动之情。

Mindmap

Keywords

💡编程助手

编程助手是指利用人工智能技术帮助开发者编写、调试和优化代码的软件工具。在视频中，特别介绍了一个名为Swe-Agent的新型编程助手，它能够通过分析GitHub上的问题来自动修复代码中的错误。

💡GitHub

GitHub是一个面向开源及私有软件项目的托管平台，它利用Git作为版本控制工具。在视频中，GitHub被用作问题和代码分享的平台，Swe-Agent通过分析GitHub上的问题来定位并修复代码错误。

💡语言模型

语言模型是人工智能领域的一种模型，它能够理解和生成人类语言。在视频中，Swe-Agent使用了GPT-4这样的语言模型来理解和处理编程语言，从而实现自动修复代码的功能。

💡代码修复

代码修复是指对现有代码中的错误或问题进行修改和改进的过程。在视频中，Swe-Agent的核心功能之一就是自动修复GitHub上报告的代码问题，通过分析问题、定位原因并提出解决方案。

💡Docker

Docker是一个开源的应用容器引擎，它允许开发者打包应用及其依赖环境到一个可移植的容器中，以实现应用的快速部署和运行。在视频中，为了使用Swe-Agent，需要先安装Docker，因为它提供了一个便捷的环境来运行Swe-Agent。

💡Miniconda

Miniconda是一个小型版的Anaconda，Anaconda是一个用于科学计算的Python发行版，它包含了大量用于数据科学、机器学习等领域的库和工具。在视频中，Miniconda被用来管理Python环境和包，以便为Swe-Agent的运行创建一个干净的环境。

💡代码编辑器

代码编辑器是一种用于编写和修改源代码的软件工具。在视频中，Swe-Agent内置了一个特殊的代码编辑器，它具有滚动和搜索等命令，使得语言模型能够像在IDE中一样浏览和编辑代码。

💡文件查看器

文件查看器是一种用于查看和浏览文件内容的工具。在视频中，Swe-Agent提供了一个特殊的文件查看器，它每次只显示100行内容，以便模型更有效地处理和理解代码上下文。

💡命令行

命令行是一个文本界面，用户可以在其中输入命令来与计算机系统交互。在视频中，命令行被用来执行安装Swe-Agent所需的各种命令，如安装Docker、Miniconda和激活Python环境等。

💡环境变量

环境变量是操作系统中用来指定运行环境的系统属性，它可以影响程序的运行方式。在视频中，用户需要设置环境变量，如GitHub令牌和OpenAI密钥，以便Swe-Agent能够访问GitHub和使用OpenAI的API。

💡问题跟踪

问题跟踪是指在软件开发过程中，记录、分类和解决软件缺陷或问题的一系列活动。在视频中，Swe-Agent通过分析GitHub问题跟踪代码中的错误，并尝试自动解决这些问题。

Highlights

介绍了一种新型的编程助手SWE Agent，由普林斯顿大学团队开发。

SWE Agent专注于修复GitHub上的现实世界中的bug和问题。

SWE Agent在发布几天内就获得了3500个星标。

SWE Agent的性能接近Devon，一个已经建立声誉的系统。

SWE Bench测试显示SWE Agent使用GPT-4的修复率达到12.29%。

SWE Agent通过设计简单的语言模型中心命令和反馈格式，使语言模型更容易浏览代码库、查看、编辑和执行代码文件。

SWE Agent添加了在编辑命令发出时运行的linter，确保代码语法正确。

SWE Agent提供了一个特殊的构建文件查看器，每次显示100行代码。

SWE Agent具有文件编辑器，可以滚动和在文件中搜索。

SWE Agent具备全目录字符串搜索命令。

SWE Agent可以立即安装，提供了Docker和conda环境，简化了环境配置和管理。

作者感谢项目团队简化了Docker和conda的安装过程，减少了Python环境管理的麻烦。

SWE Agent在尝试修复自己的仓库中的一个问题时，成功定位并修复了代码。

SWE Agent在处理问题时，能够快速滚动和搜索大型文件。

SWE Agent在修复问题时，能够自我检查并限制成本。

视频作者对AI编程助手的进步表示兴奋，并鼓励观众喜欢和订阅。