Sam Altman访谈：揭开GPT-4o多模态的面纱

时间：2024-09-01 阅读：290

Highlights:

多模态AI的突破：本文讨论了多模态AI的广泛应用潜力，特别是其结合文本、语音和视觉功能，使人机交互更加自然和高效。这种技术在实际使用中提供了意想不到的便利，比如在工作过程中无需切换窗口即可通过语音指令获取即时响应。这种新型AI技术有望彻底改变用户体验和工作流程。
初创公司不要赌AI不会继续发展: AI初创企业需要预测未来AI模型的持续进步。那些专注于使某个特定用例刚刚超出当前AI模型能力的企业，可能会因为通用模型的不断进步而失去竞争力。相反，那些利用AI技术不断进步的企业，将会在模型能力提升时获得更大的优势和更广泛的应用场景。因此，初创企业应当专注于建立能够随AI技术进步而扩展的业务，而不是赌未来的AI发展会停滞不前
AI发展需循序渐进：OpenAI在AI研发和部署中使用了“迭代部署”策略，而不是突然推出一个全新的、极其强大的模型。逐步改进和不断测试是确保AI安全和可靠的关键。这种方法不仅减少了潜在的风险，也让公众和企业更容易接受和适应新技术。未来的AI进展将是一个连续的过程，而不是瞬间的飞跃。
AGI的发展是一个连续的过程: AGI的发展不会是某个特定的时刻，而是一个连续的、逐步进展的过程。虽然最初设想AGI会在某个时刻突然实现，但现在看来，更可能的是一个不断进步的过程，每年都会取得显著的进展，而不是一次性的飞跃。

揭开GPT-4o多模态的面纱：技术，用例和幕后

Logan：你今天早些时候宣布了一个新消息。新的多模态模型GPT-4o。O也就是Omni。它可以跨文本、语音、视觉工作。你能解释一下为什么这很重要吗？

Sam：因为我认为这是使用计算机的一个令人难以置信的方式。实际上，我们已经有了语音控制的计算机，比如Siri，但它们从未让我觉得自然。而这次，由于GPT-4o的多种不同功能，它的响应速度，增加的模态，语调，自然性，它能够做一些新的事情。比如用户可以说“嘿，说快点”或者“用另一种声音说话”。它的流动性和灵活性令人吃惊。我不敢相信我多么喜欢使用它。

Logan：Spike Jonze会为此感到自豪（ZP注：Spike Jonze是电影《Her》的导演。这部电影的情节设想了一个高度发达的人工智能系统，可以自然地与人类互动并形成情感联系）。有哪些用例是你特别喜欢的吗？

图片来源：unsplash

Sam：嗯，我只使用了4o大约一个星期。我在工作时把手机放在桌子上，然后我不需要切换窗口或改变我正在做的事情，我可以把它当作另一个channel来使用。在有它之前，通常我需要停止正在做的事情，切换到另一个标签页比如谷歌搜索，然后进行一些点击。但是有了4o之后，我可以在继续我手头工作的前提下，问一下它并立即得到回应，而不需要改变我在电脑上看到的东西。这很酷也很令人惊喜。

Logan：是什么使这成为可能？是架构的转变还是更多的计算？

Sam：这汇集了我们在过去几年中学到的所有东西。我们一直在研究音频模型，视觉模型，以及如何将它们结合起来。我们一直在研究更有效的训练模型的方法。这个模型的诞生并不是说我们一下子解锁了一个疯狂的新东西，而是把很多部分结合在一起。

Logan：你认为是否需要开发一个建立在设备上的模型来减少延迟以达到可用性？

Sam：你是说对于视频来说吗？的确，在某些时候会很难处理网络延迟。我一直认为非常惊人的一件事是，有一天我们能戴上AR眼镜，说话并看到眼镜的显示进行实时变化。这个功能可能会因网络延迟而变得困难。但对于我们GPT-4o的模型来说，两三百毫秒的延迟感觉非常好，感觉比人在很多情况下回应得更快。

Logan：在这个情况下视频是指图像吗？

Sam：哦，抱歉。我是指生成的视频，而不是输入的视频。

Logan：明白。所以目前它是直接处理现有的视频。

Sam：嗯，逐帧地工作。

Logan：我感觉你们在模型开发上采取了一种迭代的方法。我们是否应可以这样理解：接下来不会有一个GPT-5的大发布，而是？

Sam：说实话，我们还不知道。我学到的一件事是，AI和惊喜并不相容。实际上，我们会以和传统的科技公司不一样的方式发布产品。我们可以称现在的模型为GPT-5并以不同的方式发布，或者叫它其他名字。但其实我们还没有弄清楚如何为这些东西命名和品牌化。当然，从GPT-1到GPT-4的发布和命名对我来说是有道理的。现在GPT-4已经变得更好。我们还有一个想法：可能有一个基础的虚拟大脑，它在某些情况下比其他情况下有更强的思考能力。或者新的产品可能是不同的模型，但用户可能不在乎它们是否不同。实际上我们还不知道如何营销这些产品。

Logan：在模型上取得渐进的进展所需的计算能力会不会比之前要更少？

Sam：我们一直在会尽可能多地使用计算能力。现在我们找到了令人难以置信的效率提升，而这非常重要。我们现在推出的很酷的东西之一显然是语音模式，但更重要的可能是我们能够使其效率高到能够免费提供给用户。那是目前世界上最好的模型，而且差距相当明显。这是GPT-4和GPT-4 turbo的显著效率提升。当然，我们还有很多可以提高的地方。

Logan：我听你说过，ChatGPT本身并没有改变世界，但可能只是改变了人们对世界的期望。

Sam：是的。你找不到很多证据表明ChatGPT真的在某个经济指标上提升了生产力之类的。

Logan：也许在客服方面有所帮助。

Sam：是的，在某些领域的确有提升。但如果你只是观察全球GDP，你能发现GPT的推出吗？可能不行。

Logan：你认为我们是否有一天能够看到GDP的提升？

Sam：我不知道你是否能确定这是某个特定模型导致的。但我认为如果我们在几十年后看统计的图表，我们会发现，嗯，有些事情发生了变化。

Logan：在未来12个月内，你认为有哪些应用或领域最有前景？

Sam：我认为我做的事情让我有一定的偏见。但我认为AI编程是一个非常重要的领域。

Logan：说一个和The Bitter Lesson有关的话题。（ZP注：The Bitter Lesson指的是AI研究领域的一个著名理念，由人工智能研究者Rich Sutton提出。这个概念主张在过去几十年中，最显著的AI进步不是通过复杂的、人为设计的算法实现的，而是通过利用大量数据和计算资源的简单算法实现的。复杂的特定领域知识和手工设计的功能往往不如大规模计算和简单算法有效。）你最近谈到了专门针对特定数据进行训练的深度专业化模型与具备真正推理能力的通用模型之间的区别。

Sam：我敢打赌，通用模型会更重要。

Logan：那么你觉得，对于专注于特定数据集和狭窄领域所有相关的integrations的人，什么是重要的？

Sam：如果模型能够进行通用推理，如果它能够发现新事物，那么当它需要知道如何处理一种新数据类型的时候，你输入数据，它就可以做到。但反之则不然。一堆专用模型不能实现通用推理。

Logan：那么，这对开发特定模型意味着什么呢

Sam：我认为最重要的是解决真正的推理能力。然后我们可以用这种推理能力做各种事情。

展望AI在沟通和创造力方面的未来

Logan：你认为在两年内，人类与AI之间的主要交流方式是什么？

Sam：自然语言似乎不错。我对这样的想法很感兴趣：我们创建一个人类和AI可以一起使用，以相同的方式使用的未来世界。所以我对人形机器人比其他形式的机器人更感兴趣，因为我认为这个世界现在非常适合人类，我不希望它为了某种更高效的事物而被重新配置。我喜欢用人类语言与AI交流，甚至AI以这种方式互相交流的想法。这是一个有趣的发展方向。

Logan：你最近提到模型可能会随着时间的推移最终商品化，但最重要的可能是模型基于每个人的个性化。我说得对吗？

Sam：我其实并不确定，但这个想法听上去很合理。

Logan：那么除了个性化，你认为模型最终能够在终端用户前脱颖而出的重点是business UI和易用性吗？

Sam：这些肯定很重要。它们总是重要的。我可以想象未来会有，比如某种市场或某种网络，然后我们的agents在其中进行交流，不同公司同属于一个应用商店。我认为商业规则依旧会适用。每当你有一项新技术时，你都会觉得它们不适用，但这通常是错误的。所有传统的创造持久价值的方法在这里依然重要。

AI的商业化：货币化、开源和未来方向

Logan：当你看到开源模型在基准测试中赶上GPT时，你的反应是什么？

Sam：我觉得这很棒。像许多其他类型的技术一样，开源模型有它的位置，hosted models也有其位置，这很好。

Logan：我不会问太过具体的问题，但有新闻报道说你们正在寻求筹集大量资金。华尔街日报称那是在筹集资金以投资于晶圆厂。在半导体行业，台积电和英伟达一直在积极扩展以满足AI基础设施需求。你最近也提到了世界需要更多的AI基础设施。

Sam：是的，我认为是这样。

Logan：你在需求方面看到了什么，让你觉得我们需要比当前从台积电和英伟达获得的更多的AI基础设施？

Sam：首先，我相信我们会找到大幅降低当前系统交付成本的方法。同时，我也相信随着我们这样做，需求会大幅增加。第三，我相信通过构建更大更好的系统，会有更多的需求。我们应该希望一个智能丰富得不计量的世界。人们会用它做各种各样的事情。你不用考虑“我是否希望这个东西帮我读所有的电子邮件并回复它们”或“我是否希望这个东西治愈癌症”。当然，你会选择后者。但更好的答案是：你希望同时用它它做两件事。我想确保每个人都有足够的资源。

Logan：我不需要你评价你个人在这方面的努力。当然，如果你愿意，请告诉我。但是Humane和Limitness等各种不同的物理设备AI助手。(ZP注：Humane Inc.主要产品是Humane AI Pin，类似于一个可佩戴的助手，利用AI为用户提供便利且隐私保护的服务，比如实时翻译、日程管理、语音助手等。该设备无需智能手机或屏幕，直接通过语音和手势交互。Limitless是一家专注于AR和AI的公司，主要产品是Limitless AR Glasses，一款增强现实眼镜，旨在为用户提供沉浸式的AR体验，结合了AI。它可以用于教育、娱乐、生产力等多个领域，帮助用户更高效地完成任务。)你认为他们做错了什么？为什么采用率未达到用户的期望？

Sam：我认为只是因为它们还出一早期阶段。我一直是许多计算设备的早期采用者。我在大学一年级时拥有并非常喜欢Compaq TC1000。我认为它非常酷，但离iPad还很远。虽然远，但方向是对的。然后我买了个Treo(ZP注：Palm Treo是一款由Palm公司生产的早期智能手机系列。Palm Treo设备结合了手机和PDA（个人数字助理）的功能，是智能手机发展的早期代表之一)。我在大学时非常不酷。我有一个旧的Palm Trio，那时学生不流行用它。它离iPhone很远。但我们最终到达了iphone。这些东西感觉是一个非常有前途的方向，但需要一些迭代。

Logan：你最近提到基于GPT-4构建的许多企业将被未来的GPT“碾压”，这是你的用词。你能详细说明这一点吗？你认为哪些特征能让以AI为核心的企业在GPT进步中存活下来？

Sam：唯一有效的框架是这样的：你要么建立基于下一代模型不会非常好的业务，或要么建立一个会从GPT变好中受益的模型。如果你花很多力气让一个超出GPT-4能力的用例发挥作用，但是当GPT-5出来之后，它把这个任务做得更好，那么你可能会感到难过。但如果你做了一些事情，效果不错，用户在用，然后GPT-5或其他版本出来并且一切能力都更强，那么你会受益于潮水上涨带来的所有好处。在大多数情况下，你不是要建立一个AI业务，而是建立一个业务。AI只是你使用的技术。 在App Store早期，有很多裂缝需要被填补。但是最终苹果会修复这个问题。你不再需要App Store的手电筒应用，因为它已经是操作系统的一部分。这是必然的。与此相反，Uber之类的公司是由智能手机推动的，但是他们建立了一个长期有防御力的业务。我认为你应该追求后者的模式。

Logan：我可以想到许多利用你们技术的现有业务，它们符合这种框架。在这种情况下，你认为有什么新颖的概念？它可以是真实的公司，也可以是有趣的想法，像Uber那样？

Sam：我实际上会赌新公司。人们常用的例子是试图建立AI医生、AI诊断师。他们会说，我不想在这个领域创业，因为梅奥诊所或其他机构会这样做。但我实际上会赌这是一个新公司来做这样的事情。

Logan：你对那些希望积极准备应对这些颠覆的CEO有何建议？

Sam：你们需要赌智能作为一种服务，每年都变得更好更便宜。这是成功的必要条件，但不是充分条件。所以，那些花费数年时间来实施这项技术的大公司，你可以打败他们。但每个关注这一领域的初创企业也会这样做，所以你仍然需要弄清楚，如何在长期内建立你的公司的护城河。现在的竞争环境比过去更开放，有很多新事物可以做，但你不能因为有更多的方式可以实现价值而放弃艰苦的工作。

Logan：你觉得有没有什么工作岗位是会在五年后由于AI而存在或成为主流，而现在可能是小众或不存在的？

Sam：这是个好问题，我以前没被问过。人们总是问哪些工作会消失，但新的工作其实更有趣。我觉得新的工作会在新型艺术、娱乐、更具人际连接的新形式这些方面。我不知道那具体会什么职位，但我认为这会是一个非常大的新类别。我认为在人与人之间的亲身体验上会有溢价。

解析AGI：通向高级AI的连续旅程

Logan：最近公开的OpenAI估值大约是900亿美元。你认为OpenAI成为万亿公司短期内的关键里程碑是什么？除了AGI。

Sam：我不知道具体的数字。但是我认为如果我们能继续以我们现有的速度改进技术，并继续推出好产品，增长收入，我们达到万亿没问题。

Logan：目前的业务盈利模式是否能创造万亿美元的股权价值？

Sam：我认为ChatGPT的订阅模式对我们来说非常有效。我本来不觉得它会这么成功，但它确实做得很好。

Logan：不管AGI意味着什么，你认为在AGI之后，我们能不能问AGI它有没有一个不同的商业化模式？

Sam：是的，应该能。

Logan：我们可能在11月份看到了现有OpenAI结构的一些不足之处。你提到过在未来会做出改变。你认为未来更合适的结构是什么？

Sam：我们快准备好讨论这个问题了。我们一直在努力进行各种对话和头脑风暴。我希望今年，我们会准备好讨论这个。

Logan：当Larry和Brett Taylor被提升为董事会成员时，我在等待电话，但我的电话没有响。

Logan：关于AI的商业模式和所有这些的概念有很多有趣的看法。你提到过它会先取代手工工作，接着是白领工作，最后是创造性工作，但显然，它在某些方面已经证明了相反。有没有其他让你觉得意外的事情？

Sam：这是对我来说最大的惊喜，就是你提到的那个。我没有期待它能如此早地胜任法律工作，因为我认为那是一个非常精确、复杂的事情。但最大的是物理劳动、认知劳动和创造性劳动之间的观察。

Logan：对于那些没有听过你谈AGI为什么不喜欢这个词的人，你能详细说明一下吗？

Sam：因为我不再认为这是一个时刻。我最初设想的是，我们会有一个时刻，我们没有AGI，然后我们有了。会有一个真正的跳跃。现在总体上我认为这会更像是一个连续的指数曲线，重要的是每年的进展速度。你我可能不会在某个月或某年同意这是AGI，但我们可以想出一些我们都同意的测试，但这比听起来更难。GPT-4显然没有达到几乎任何人认为的AGI门槛，我不期望我们的下一个大模型也会达到。但我可以想象，我们离某种不同的东西只有一两个或一些小的想法和一些scale上的差距。所以我们需要保持警惕。

Logan：有没有一种更现代的图灵测试，我们可以称之为Bartlett test，去测试它有没有跨越这个门槛？

Sam：我认为当它能比所有OpenAI的研究人员做得更好时，那将是一个非常重要的时刻，可能或应该是不连续性的。

Logan：这感觉近了吗？

Sam：可能还不近，但我不会排除这种可能。

Logan：你认为达到AGI的最大障碍是什么？听起来你认为scaling law目前还有发展空间,并且会持续几年。

Sam：我认为最大的障碍是新研究。我从互联网软件转向AI学到的一件事是，研究不像工程那样按时间表工作。研究通常意味着需要更长时间，有时也会比任何人预期的快得多。

Logan：能详细说明研究进展不像工程那样线性吗？

Sam：最好的解释方法是历史实例。我可能会记错数字。

Logan：我相信没人会纠正你。

Sam：有人会的。我想中子是在20世纪初被首次理论化的，它可能在10年代或20年代首次被探测到。开始研究原子弹的工作是在30年代，而原子弹的制造在40年代。从不知道中子的概念到制造原子弹并打破所有物理学的直觉，这进展得非常快。还有其他的例子，比如莱特兄弟。我可能会记错数字，假设是1906年，他们认为飞行还需要50年，1908年他们做到了。在科学和工程的历史上有很多这样的例子。还有很多我们理论化的东西从未发生，或者比我们预期的要长几十年或几百年。但有时候进展非常快。

AI可解释性的重要性

Logan：在可解释性在这条道路上我们走到了哪里，以及长期来看这对AI有多重要？

Sam：有不同类型的可解释性。首先是我是否理解网络的每一层发生了什么。其次是我能否通过输出发现逻辑缺陷。这些都是可解释性。我对OpenAI在这个方向上进行的工作感到兴奋。我认为作为一个更广泛的领域，可解释性是令人兴奋并且有前途的。

Logan：我不会逼你给出具体回答。我想你们在准备好发表声明时会有一个不错的公告。但你认为这将成为AI在企业中被采用的必要条件吗？

Sam：GPT-4现在已经被广泛采用了。

AI伦理，监管和安全性

Logan：或许称其为指控有些过分，但是人们的确对AI在AGI方面令人兴奋的发展和你个人对OpenAI的掌控和单方面决策有一种顾虑，这引发了一些讨论。有人认为应该建立政府结构，选举领导来掌控OpenAI，而不是让你来做所有决策。

Sam：是的。我认为对当前能力模型进行严格监管是错误的。但当模型会对世界构成重大灾难性风险时，我认为有某种监督可能是件好事。当然，设定这些阈值和测试方法有些复杂。如果我们有国际核武器规则，这是件好事。

Logan：对于那些认为监管是为了维护既得利益而对其持批评态度的风投组织，你认为他们对AI固有的潜在风险有哪些不了解的地方？

Sam：我认为他们没有认真思考AGI。很多对AI监管俘获持强烈声音的人，不久前还完全否认它的可能性。但我确实理解他们的立场，即监管对技术不利。看看欧洲科技行业发生了什么，我真的理解他们的担忧。但我认为我们正朝着一个门槛前进，可能会让我们感到不同。

Logan：你认为开源模型本身在某些方面存在内在风险吗？

Sam：当前没有。但我可以想象有可能的。

Logan：我听你说过安全性在某些方面是一个错误的框架，因为这是关于我们明确接受的事情，例如航空公司。

Sam：是的，安全不是一个二元的东西。你愿意乘坐飞机，因为你认为它们相当安全，即使你知道它们有时会坠毁。称航空公司安全需要的条件是可以讨论的，有些人有不同的看法。这是个热门话题。

Logan：它们总体上变得非常安全，但安全并不意味着没有人会在飞机失事中丧生。类似地，药物，我们真的考虑副作用，有些人会有不良反应。还有隐性的安全问题，比如社交媒体或者那些有负面影响的事物。

Logan：在安全性方面，有没有什么事情会导致你采取不同行动？

Sam：是的，我们有一个叫“preparedness framework”的东西，正是为此设计的。它们规定了我们在不同的级别下，我们会采取不同的行动。

Logan：我曾在播客上采访过Eliezer。（ZP注：Eliezer Yudkowsky是AI安全领域的知名人物。他是机器智能研究所（Machine Intelligence Research Institute，简称MIRI）的研究员，该研究所专注于开发安全且有益的人工智能系统。他提倡进行严格的研究，以确保未来的人工智能发展符合人类的价值观和安全标准）

Sam：那怎么样？

Logan：非常好。是我做过的最长的播客，我想我们聊了四个小时。

Sam：我很感激他的存在。

Logan：和他坐下来聊四个小时非常有趣。

AI的未来：Fast Takeoff场景和社会变化

Logan：和他坐下来聊四个小时非常有趣。我们讨论了很多方向，但作为节目的朋友，我必须问一下Fast Takeoff。我很好奇，有很多不同的Fast Takeoff场景。

Logan：我们今天面临的一个限制是缺乏AI基础设施。如果有研究人员开发了一种改进的Transformer架构，大幅减少数据和硬件需求，更像人脑，我们是否可能看到快速起飞的场景？

Sam：当然有可能，甚至可能不需要修改。我仍然不认为这是最可能的路径，但我不排除它。我认为重要的是在可能性空间内考虑它。我认为事情会变得更连续，即使它们在加速。我认为我们不会在一天晚上睡觉时AI还不错，第二天醒来就是真正的超级智能。不过即使起飞在一年或几年内发生，这仍然很快。

Logan：即使你达到了这个非常强大的AGI，它对社会的改变是第二天、一年后还是十年后呢？

Sam：我的猜测是，大多数情况下不是第二天或一年后的事情，但在十年内，世界将会非常不同。我认为社会的惯性在这里是一个有用的事情。

应对个人和职业挑战

Logan：人们也会对一些事情产生怀疑。我想你不喜欢被问到的问题包括Elon、股权和11月的董事会结构。你最不喜欢哪个？

Sam：我不讨厌任何一个，只是没有新内容可说。

Logan：好吧，我不会问具体的股权问题，因为你已经回答了很多次。尽管人们似乎不喜欢足够的钱这一说法。

Sam：是的，如果我赚了万亿美元然后捐出去，这符合预期或通常的做法。

Logan：有另一位Sam试过这样做。（ZP注：“另一位Sam”指的是Sam Bankman-Fried。他是加密货币交易平台FTX的创始人兼首席执行官，以其慈善承诺和“有效利他主义”的理念而闻名。他公开表示，计划将其大部分财富捐赠给慈善事业。）

Logan：相比之下，你觉得追求AGI的动机是什么？我想大多数人会觉得，即使我有更高的使命，我仍然可以从中获得报酬。那么你现在每天工作的动机是什么？最大的满足感是什么？

Sam：我经常告诉人们，我愿意在现在做出许多生活上的妥协和牺牲，是因为这是我能接触到的最令人兴奋、最重要、最好的事情。现在是一个疯狂的时刻，我很高兴这不会永远持续。有一天我会退休在农场，回想起来会觉得现在是一段紧张的日子，但也非常酷。我简直不敢相信这发生在我身上，太棒了。

Logan：有没有一个时刻让你感到最不真实？你做过播客，与比尔·盖茨对话过，你手机里可能有很多有趣的人。过去几年中有没有一个特别不真实的时刻？

Sam：每天都有一些事情让我觉得不可思议。如果我有更多的空间仔细思考，这真是太疯狂了。

Sam：但在11月那次事件之后（ZP注：OpenAI在2023年11月经历的一场领导层动荡事件。），比那天或第二天，我收到大约10到20条短信，来自一些国家的主要领导人。这并不奇怪，奇怪的是这感觉很正常。在那四天半里我一直很忙，几乎没有睡觉，能量水平很高，非常清晰，非常专注。然后这一切发生在感恩节前一周，那真是疯狂的几天，直到星期二晚上解决。

Logan：你取消了我们的播客。

Sam：是的，我通常不取消的。然后在那星期三，我和Ali开车去Napa，在一家餐馆停下来。我意识到几天没吃东西了，点了四道主菜，两杯奶昔，只是为了我自己。那是一个很令人满足的时刻。当我在那儿吃饭时，一位国家的总统再次发短信祝贺解决问题。当时我意识到，这一切发生了，并没有感觉奇怪。

Logan：是的，这真是有趣。

Sam：我的结论是，人类适应几乎任何事情的能力比我们意识到的要强得多。无论好坏，你可以很快适应新常态。这几年我多次学到这一点。这反映了人类的非凡之处，对我们有好处。

Logan：我记得9/11之后，我在新泽西的Summit镇，很多人去世了。恐怖袭击后整个镇子团结起来，这种正常感让我觉得非常不寻常。现在我有朋友在以色列，你和他们谈，他们说这很正常。我说，那里有战争。他们说，嗯，你继续日常生活，去买食物，和朋友聊天。这些心理影响真的很有意思。我们还是需要吃饭，和朋友聊天。这是不可思议的适应能力。

Sam：真的，这确实是我最大的意外惊喜，这是很深刻的感受。

Logan：模型变得越来越智能，你也提到的创造性的元素。随着模型开始有着更多的能力，你认为什么会是人类独有的？

Sam：很多年后，人类仍然会关心其他人。我在网上看到很多人说，大家都会爱上ChatGPT，大家会有ChatGPT女朋友之类的。我打赌不会。我认为我们长期对其他人类的关注将保持不变，这在很多大大小小的方面都是如此。

Logan：你听到的关于你的阴谋论可能很多。关于AI的阴谋论你可能不会听到很多，也许你也不在乎。毕竟我们可能不会把观看机器人踢足球作为我们的主要爱好。你在YC制定了许多运营公司的规则和框架，然后你也打破了很多规则。你是否在这个OpenAI的业务中聘用了不同类型的人，而这些人是你在创办一家消费互联网公司或B2B软件公司时不会用的？在高层管理团队中是否有不同类型的人？

Sam：研究人员与产品工程师非常不同。

Logan：Brad或Mira或其他高管以及研究人员都很独特。OpenAI是否引入了不同类型的高管，或者说你是否会招聘特定特质的人才？

Sam：我基本上没有这样做。我有时会外部招聘高管，因为我坚信如果你只内部提拔，可能会加强monoculture。我认为你需要引入一些新的，高级的人才。当然，我们这里主要还是喜欢内部培养的人才。考虑到我们的工作与其他地方的工作有很大不同，我认为这是一个积极的做法。

Logan：你在OpenAI做出的最重要的决策是什么？你是如何做出这个决策的？

Sam：我很难说出特定的一个。我们决定做我们所谓的迭代部署，这个决定非常重要。我们不会秘密建立AGI然后一次性推出，而这曾是主流的计划。我认为这是一个非常重要的决策。另一个重要决策是押注语言模型。

Logan：我其实不知道押注语言模型的故事。这是怎么开始的？

Sam：我们当时有其他项目，比如机器人和视频游戏。有一个人开始研究语言建模，Ilya非常相信它，相信这个方向会成为语言模型。我们做了GPT-1，GPT-2，研究Scaling Law，扩展了GPT-3，然后我们进行了下注。这些决定的方向在事后看起来很明显，但当时真的不觉得。

AI在创造性和个人身份中的角色

Logan：你最近提到过AI有两种使用方式，一种是复制你自己，一种是让它成为最聪明的员工。

Sam：哦，我不是说不是AI本身，而是你想如何使用它。当你想象使用个人AI时，你是否会有这样一种概念：这完全是我自己，还是这是一个独立的助手？

Logan：这两者之间有一个微妙的区别。你能详细说明吗？

Sam：如果五年后你要发短信给我，我认为你会想知道你是在给我发短信还是我的AI助手。如果是我的AI助手，它会汇总消息，然后你会得到回复。如果它可以轻松地做一些你可能让我的人类助手做的事情，那也没问题。我认为保持这些事情的独立性是有价值的，而不是说AI只是Sam的延伸。我不想感到这个东西只是我的奇怪延伸，而是一个独立的实体，我可以通过一个边界与之交流。

Logan：在音乐或创造性领域，复制一个Drake或Taylor Swift变得相当容易。我们可能需要某种验证形式或集中化验证，这实际上是某个人的创造性工作。你可能也希望在个人层面上有类似的东西。

Sam：是的，但这就像，我对OpenAI的看法是，这里有不同的人，我要求他们做一些事情，他们会去做，或者他们要求我做一些事情，我也会去做。这不是一个单一的董事会，我认为这是我们都能接受的方式。

Logan：那么这是什么意思？你能联系一下吗？让个人自由行动的去中心化？

Sam：我想说的的是，我的个人AI是什么样的概念？有两种思考的方式。第一种，我认为这个AI就是我，它会接管我的电脑，做最好的事情，因为它是我。它会替我回复消息，逐渐接管我的控制？还是说我认为这只是一个很棒的同事，我可以说“嘿，能帮我做这个吗？完成后告诉我”。我倾向于认同第二种方式，我认为AI不是我。

为AI时代调整教育系统

Logan：你认为教育系统应该做出哪些具体的改变，以准备迎接未来的学生？比如2030或2035届的大学生。

Sam：最重要的一点在于，人们不仅应该被允许使用这些AI工具，而且应该被要求使用。当然，有些情况下我们希望人们用老方法做事，因为这有助于理解。

Logan：就像我记得有时候在数学课上，你不能使用计算器。

Sam：是的，但在现实生活中，你可以使用计算器。所以你需要理解它，但你也需要熟练使用计算器。如果你在数学课上从未使用过计算器，那么你在以后的工作中可能会不如意。如果OpenAI的研究人员从未使用过计算器，OpenAI可能就不会存在。至少计算机是这样。我们不会试图让人们不用计算器，不用电脑。因此我们也不应该训练人们不用AI，因为这将是未来做有价值工作的重要组成部分。

Logan：最后一个问题。你在AGI及其以后的规划中写道，第一个AGI只是智能连续体上的一个点。我们认为，从那里开始，可能会发生持续进步，并且在很长一段时间内保持我们过去十年看到的进展速度。你是否曾经停下来思考或想象未来会是什么样子，还是这太抽象了？

Sam：我不会把它想象成《星球大战》中的飞车和未来城市，但肯定会想象，当一个人能做数百或数千名协调良好的人的工作时，会是什么样子？当我们能发现所有的科学知识时会是什么样子？这会是一个很酷的世界。

文章来源：Z Potentials

Sam Altman访谈：揭开GPT-4o多模态的面纱

你可能感兴趣