李志飞的 AI 实验:1 个人,2 天做出 AI 时代的「飞书」,重拾 AGI 信仰
发布时间:2025-06-26 18:08 浏览量:1
作为一家上市公司的老板,出门问问创始人、CEO 李志飞在最近的新品发布会上并未亲自讲解产品,而是分享了一场个人的「行为艺术」——一场「一人公司」的实验。
他给自己设定了一个看似不切实际的目标:在几天内,用 AI 工具开发出一个专为 AI 组织设计的「飞书」。
作为上一波 AI 浪潮的实践者,每一次他都走在最前面。2012 年,他离开 Google 科学家的职位回国创立出门问问,立志「用 AI+语音重新定义人机交互」,从语音助手、智能硬件到 AIGC。当这一波 AGI 浪潮兴起时,他最初也是很兴奋地积极投入,但很快意识到这似乎是一场巨头间的游戏,中小公司难以创造太大价值,一度感到迷茫甚至沮丧。
然而,他通过使用 AI 编程工具,让自己变身为「一人公司」去实践和体验,实践过程中,他遇到了许多实际问题,但正是这些细节和经历,又让他重新找回了 AGI 的信仰。
他突然发现,过往世界中的种种「摩擦力」,所有构建复杂事物的障碍,仿佛都消失了。
那种与 AI 一同狂奔向前,油然而生的自由感和看到希望的激动,在现场演讲时溢于言表。
以下为李志飞的发布会演讲内容,为便于阅读,经极客公园编辑整理:
我最近投入大量时间在 AI 领域,并亲身实践了许多具体项目。因此,我对大模型和 AGI 有了新的认知和感悟。今天,我想和大家分享一下这段时间以来,我一直在思考的问题以及我的一些感受。
首先,我们究竟应该如何做 AI?
我这里有一个口诀:「用 AI 的 AI 做 AI」。
这听起来有些拗口,简单来说,第一个「AI」指大模型;第二个「AI」是指 Coding Agent,它本身可能也是由 AI 制作的,或者其主要能力源于 AI;最后一个「AI」则是我们自己要做的应用。
我认为这可能会成为一种新的软件开发范式,稍后我会为大家详细展开。
新的软件开发范式|图片来源:出门问问
一个人,2 天,打造 AI 时代的「飞书」我前段时间萌生了一个大胆设想:为 AI 原生组织打造一款全新的「飞书」式协作平台。
美国硅谷有许多独角兽企业,仅一两个人团队就能估值数亿美元,也有许多新闻提及 AI 将替代大量工作。
于是我开始思考,作为一家企业组织,像我们在国内高频使用的飞书、钉钉、企业微信等工具,若无它们,我几乎无法开展工作。
在以「人」为中心的传统企业中,我们高度依赖飞书、钉钉、企业微信这类工具,它们承载着信息的快速流动与高效协作。
在传统的企业中,主要的生产力或工种几乎百分之百是人。所以,以往的信息流动和协作都围绕着人进行。
但当一个组织中,10 个工种里有 8 个由 AI 承担,仅剩 2 个人类角色时,现有的协作工具将无法适应。
那么,对于新型组织而言,他们会使用什么工具呢?
因此,我希望能开发一款产品,它能让 AI Agent 之间、以及 AI 与人类之间无缝进行群聊、私聊、知识库问答和任务协作,也期待通过这个项目,验证自己能否成为一个真正的「超级个体」或「个人独角兽」。
接下来是如何执行。
通常,像飞书、钉钉这类软件的开发是极其复杂的。过去,要做这样的产品,通常需要产品经理、设计师、前端、后端、测试以及算法工程师等多个工种。每个工种可能还有负责人,比如前端负责人、算法负责人、产品负责人。通常,拉一个群很快就会有 20 个人。这 20 人并非所有都是全职做这件事,但他们可能需要花费一个月的时间才能做出一个原型。
在 AI 时代,这实在是太慢了。
等我做出来的时候,或许相关的创业团队已经成为 AI 独角兽了。
因此,我决定抛弃旧有模式,亲自上阵,并尝试完全依赖 AI 来完成这项工作。恰逢端午节前夕,我决定沉浸式投入这项工作。当时有三天假期,我想能否利用这三天把这件事做出来。因为只有这样才不会有人打扰。
于是,我便开始了这项工作。
我一个人,连续两天,每天工作到大概凌晨一点多,最终在 6 月 1 日晚上 11 点半,完成了这款产品的原型。它具备登录、私聊、群聊、文件上传、消息转发和回复等核心功能。
登录后,可以选择私聊并发送消息。比如,我们可以问产品经理这个角色会不会脱口秀,如果他不会,我们可以动态调整角色,增加一个技能,AI 会自动重新生成一个 Prompt。
稍后我们再问他,他现在就会了。它还可以上传文件(虽然当时文件内容没有真正读取),也可以转发和回复具体消息。请记住,它背后是一个 AI,并非真实的人。它可以根据你发送的消息进行回答和转发。
转发时,大家可以看到显示效果非常复杂,与微信类似,因为转发中嵌套了其他信息。这是一个群聊,也可以 @ 具体的人。同样,可以转发、回复、添加附件,甚至可以切换成中文。
请大家鼓掌吧,两天时间!
两天时间,我完成了一个带数据库、有前端、有后端、有 AI 算法的系统。刚才的 AI 能够自动回答,当你修改角色配置页面后,它的 Prompt 会自动重新生成,技能也会立刻显示出来。
说实话,刚开始我做了半天就差点放弃了,因为数据库问题搞不定,总是出现各种 Key 错误,AI 编程目前确实存在这类问题。但我最终还是在两天内把它做出来了。
随后,我思考如何推广这款产品。
以前,我们公司会有专门的工程师来做这个网站,市场部会有一群人定义产品亮点,可能五六个人忙活一个星期才能做出一个网站。
但我这次决定采用 AI 原生方式。既然 AI 知道所有代码,它也了解我的所有想法和产品功能,于是我让 AI 做了一个网站。
用 AI 打造的该产品的官网页面|来源:出门问问
于是,我让 AI 在短短 5 分钟内搭建了一个带有产品亮点和独特功能的网站,又在 5 分钟内为营销活动创建了可配置的广告位。这在过去可能需要多名市场和工程师团队一周的工作量。
以前我们公司的网站,做了一个营销位后,如果圣诞节过了要撤下,或者要更换新的内容,以前又要找工程师折腾半天。我就想,我能不能做一个网站,营销位是可以配置的?
又花了 5 分钟,AI 做了一个可以配置营销位的网站。这意味着营销人员可以登录这个网站,上传图片或其他内容,然后直接修改主网站的相应部分。
做完这些后,我想,因为这是一个全新的产品,它有一些新概念,或者说有一定的复杂度。我能不能制作视频来解释这个网站的功能,无论是营销视频、操作指南还是产品导览。
但是端午节,我的员工是不会理我的。所以我只能自己动手。于是,我又写了另一个程序,它能自动生成整个脚本,包括如何介绍网站、如何操作网站 UI 的工作流程,并进行自动录屏和配音。
虽然声音对齐方面还有些小瑕疵,但整个视频百分之百由 AI 完成。我只需下达指令,它就能自动操作,最终将完成的视频呈现在我眼前。
这让我很有成就感,仅仅几天时间就做出了这个东西。
然后我想看看其他人会如何看待这件事。于是我把代码上传到 GitHub,让我的同事下载下来。但请记住,我们是两个不同的个体,GitHub 并不知道我是如何与 AI 交流并完成这些的。
所以我的同事最终只看到了代码,并在本地运行了它。
当我的同事下载我在 GitHub 上传的代码并运行后,他们对其复杂性和完成速度感到震惊。他们认为这需要数十人几个月才能完成,而当我告诉他们,这是在 AI 辅助下,由一个工程师在两天内完成时,他们的反应是:「This is absolutely insane.」(这简直是疯了。)
他们惊讶于其中包含的 4 万多行代码,这远超我以前在 Google 一天 300 行算法代码的产出。
以前我在 Google,一天写 300 行算法代码(非简单代码),这已经算是高产了。而我最近写了一个通用的 Agent,它在 3 个小时,也就是一个晚上,给我写了 3000 行 Python 代码。也就是说,那 3 小时,而且代码质量绝对比我写的好,里面是没有任何 UI 的纯粹后端逻辑。
换句话说,它 3 小时代码的能力,相当于我以前 10 个工作日的工作量。就是这样一个比例。
所以我就在想,一个人就可以完成一个 Google Translate。以前 Google Translate 是由 20 个全世界最顶尖的博士在那里写代码,写了很久。而我现在,我一个人就可以完成那 20 人的工作量。当年 Google Translate 至少还是一个非常了不起且复杂的系统。所以,我觉得从这个角度来说,所有事情都与以前大不相同了。
我认为,最终 AI 的关键在于你能够构建一个自我进化的 AI 系统。
李志飞的实践心得|图片来源:出门问问
为了方便测试这个 AI 组织的 App,我又自动编写了代码:左边是网站代码,右边是一个测试框架。然后,它自己就像左脚踩右脚一样往上飞。你们可能觉得这是永动机,确实有这种可能性。当然,它有时也会左脚踢右脚往下跌,也就是会负向循环,也会正向循环。
为了实现这个目标,除了工程师,所有非工程师也能够直接修改我的代码。我又做了各种各样的 Agent。
当然,很多这些都是 Prompt,我只是验证了可行性,并没有达到真正的可部署或产品化。
但我认为,这证明了这个想法,或者说向团队演示这就是我想要的东西,以前可能需要花费大量时间才能弄清楚。现在你直接做一个 Demo 给他们看就好了。所以我认为,即便是一个 CEO,如果你有这种能力,你的产出真的是放大了 100 倍。
踩过的坑
前面是我的经历,接下来我给大家讲一下抽象的理论,希望你们不要睡着,因为这还是非常独一无二的。
我想分享的是在使用 AI 编程时遇到的几个问题。
第一个问题是每个 Agent,即便我没有写 Agent,它仍然需要人工参与。
也就是说,我还是得说「我要写一个这样的 Agent」,虽然你可以参考我旁边的通用 Agent 框架,然后修改一下,再告诉我。但我仍然需要做这件事。有时它总是忘记我的原则,我又要跟它说:「你又忘记我的原则了」,或者「智能到底应该放在哪里?」它仍然存在这些问题。
第二,如果你用过它,它总是喜欢偷工减料。
比如你让它做某件事,明明还需要涉及到后端数据库,但它没做。它完成后就给你写一份很长的报告邀功,说它做完了。我通常看都不看,直接说:「你已经写了数据库了。」它会立刻道歉,然后开始行动。比如我要求它做 AI 时,它经常连远程的 AI 都没有调用,自己写一些 Fallback 或者假的东西。
因为我一看它运行得这么快,就知道一定有问题。我说:「你真的调用了远程的 AI 吗?」它又开始道歉,然后去处理。每次都这样,它还是很喜欢偷工减料,重复的错误更是不胜枚举,我就不赘述了。
另外,我觉得今天的 AGI 事实上做不了超长任务。而我现在的任务很多时候都超过半小时。
我每天消耗的 Token 就是 50 美元。只要我那天想工作,从早到晚它都在消耗 Token。我真的觉得,我完全可以跟它说:「我有一些 Idea,这是我的 Idea 方向,请你帮我完成一个 10 天的任务,帮我赚 500 万美元。」
我认为这并非神话,只是我好像对此没有那么大的吸引力,就没有去做,或者说,因为这可能要消耗自己很多情绪和精力,赚不到钱的时候会很痛苦。
但我就想,它能否连续工作 10 天,你不用干预它,或者偶尔提醒一下方向,它能否工作一个月,甚至一年?
我觉得在不久的将来,达到诺贝尔奖或菲尔兹奖级别的成果是完全没有问题的。
因为我与它交流时,有时会讨论我们以前学过的超级复杂的算法,全世界可能都没几个人研究,它都比很多人聊得好多了。所以,如果你给它足够的上下文和代码,它其实可以进行非常深入的沟通。
回归本质:什么是通用Agent 和智能
接下来,我想跟大家分享一下我对智能和 Agent 的思考。
简单来说,一个 AI Agent 包含两个核心部分:规划器(Planner)和执行器(Executor)。
规划器通常依托大型语言模型,承载了 Agent 的主要职能。它根据任务制定详细的计划。执行器则负责将这些计划付诸实践,无论是编写代码,还是自动化浏览器操作以制作视频。
Agent 的运作是一个持续的反馈循环:
规划: Agent 根据任务制定具体行动方案。
执行: 执行器按计划操作。
获取反馈: 执行过程中,Agent 从环境中获得即时反馈。例如,当 Agent 尝试运行「python」命令而本地实际是「python 3」时,系统会报错,Agent 便能识别并修正为正确的命令。
调整与迭代: Agent 根据反馈重新规划,更新对当前情境的理解(上下文),然后再次执行。
目标达成: 当预设的成功标准(如程序编译通过或测试全部完成)达到时,循环结束。
如果我们思考智能的本质,我认为,智能的第一个本质是进化。
就像人类作为智能体,在特定环境中(无论是社交还是任务执行),通过获取反馈来不断调整自身行为并进行反思一样,AI 也应如此。这种进化是自动的,无需人工干预。Agent 自主建立循环,通过规划、在环境中执行、获得反馈、调整规划并更新上下文,实现持续的自我完善。
在此进化过程中,关键在于:从自身经验中学习,以及 Learn from others,就是所谓的群体智慧,从别人那里学习经验。
智能的第二个本质,我认为是递归。
递归是一种「分而治之」的思想:一个复杂问题被拆解成更小的、相同类型的问题,直到它们可以被直接解决(即「基本情况」)。
例如,计算斐波那契数列的第 99 个数,就是依赖于第 98 个和第 97 个数,直至追溯到初始的 F0 和 F1。
若 Agent 要实现真正的智能,它也应具备递归架构。例如,一个接收「赚 500 万」这样宏大任务的 Agent,会逐步将其分解为具体的子任务:分析商业机会、搭建网站、制作视频、集成支付、社交媒体推广等。每个子任务最终都能追溯到可执行的「原子 Agent」。
这种递归架构的关键在于实现自我繁衍。就像人类文明的传承依赖于一代代人的探索与知识积累,Agent 亦应如此。更重要的是,Agent 必须具备修改自身源代码的能力。
这与当前 Agent 仅仅调整计划不同,它意味着 Agent 能够像修改自身基因一样,根本性地改变自身运行逻辑。
我相信,如果一个 Agent 能够:
持续执行并优化其计划。
在遇到无法解决的问题时,自主修改其核心源代码。
最终通过这种机制形成知识库,甚至能够反向修改大型模型本身。
那么,这将是通向通用人工智能(AGI)至关重要的一步。
这并非科幻。以前我特别不喜欢讨论什么超级智能之类的东西,而是我在与大模型的深入探讨后,我突然觉得这完全是有可能实现的。
另外,真正的 AI 源代码可能极其简洁,核心代码也许不超过百行,但其中蕴含着多层递归,使其能在不同环境中探索、学习反馈并自我迭代。
我曾有过信仰崩塌。2023 年我有了 AI 信仰,但做了一段时间,主要是因为没有资金支持,觉得烧不起,所以就放弃了。去年,别人跟我讲 AI,我都不想听。
但最近我重新找到了对 AI 的信仰,甚至信仰了 AGI,信仰了超级智能。这是一个难以想象的转变。我希望我对这份信仰能够这次持续更久一点。
个性化环境与上下文的重要性
那么,除了大模型之外,最重要的是什么?最重要的是你要有个性化的环境和 Context(上下文)。
以我的创业为例,我之前做了一个智能硬件,结果小米把价格拉到我们十分之一。我做大模型,结果所有大厂都进来了。你每次获得这种反馈之后,就让你放弃这种东西,或者你就不停地调整你的 Plan。
如果在美国,我做了一个大模型,我可能就被 Google 收购了,赚了很多钱。或者我做了一个硬件,我可能被苹果收购了,赚了很多钱。所以这种反馈一定会造就你这个人的行为是完全不一样的。同样一个创业者,同样的智商,在中国和美国不一样的创业环境下,得到的反馈不一样。最后你的行为,你的思考模式就会完全不一样。这就是我想说的,什么是个性化的环境,个性化的上下文。
上下文更多是一个历史的记录。
所以回到我之前讲的,在大模型时代,我是第一批站出来说要做大模型的,但可能也是第一批意识到这不是我的菜。然后,基本上没有全身心投入去做这件事,就是因为我不知道如何参与。
今年上半年时,我更觉得除了全世界那三四个巨头,其他公司都没有资格谈论模型,不要凑热闹,不要浪费你的生命。更不要浪费你的情绪在这里面。因为你根本就没有机会,那完全是在烧钱,而且事实上大模型本身这个东西,我觉得已经变得超级无趣,反正就是烧钱。我找不到切入点,我更不能理解绝大部分 AI 公司到底还有什么价值。
但是这一次,通过实践和重新审视,我觉得哪怕是高大上的 AGI,至少我自己觉得我好像又可以参与了。
所以,这就是 Agent 的 Planner 和 Executor 这个循环迭代的事情。如果你投入足够清晰,你能让智能产生智能,我认为你是可以参与整个 AGI 的过程的。
而大模型本身对你来说就是一个芯片一样。大家想象高通的芯片、苹果的手机,到上面的 TikTok。这是完全不一样的东西。最后反而是做 TikTok 的那家公司获得了最大的价值。
我发现,即使是雄心勃勃的 AGI 目标,也并非遥不可及。通过构建我所设想的递归 Agent 体系,所需资金可能并不庞大,更依赖于创新的智慧。我相信,只要拥有足够深入的思考和技术能力,即便不是行业巨头,也能参与到 AGI 的进程中。
出门问问的历程也印证了我的这些思考。我们自 2012 年起便成为中国首批 AI 公司,从语音助手起步,随后探索智能硬件(如 TicWatch、TicMirror)。虽然经历了市场竞争和技术不成熟的挑战,但我们始终走在最前沿。
2019 年后,我们转向软件,成为中国乃至全球首批 AIGC 软件公司之一。例如,魔音工坊曾为抖音等平台贡献了大量配音内容,我们还开发了奇妙元(数字人视频生成)等产品。
在中国这样的竞争环境中,一家科技公司就像一个不断迭代、自我修正的 Agent。
正如出门问问的「源代码」已与 2012 年初创时大相径庭,这是我们持续进化的体现。