从 OpenAI 的愿景和技术底层逻辑推演大模型生态
自 ChatGPT 发布以来,AI 领域的技术、产品和创业生态几乎在以周为单位迭代。OpenAI 作为这次 ai 热潮的导火索和行业事实的领先者(且可能长期保持),对行业生态有广泛和深远的影响。
本文从 openai 的 AGI 愿景出发,首先分析了在该愿景的驱动下 OpenAI 是如何一步步依据 Scale、Generative Model 两个重要技术判断形成了我们所能观察到的 LLM 发展路线,并对此技术路线的底层逻辑进行了分析;在对愿景和技术选型分析的基础上,报告将 OpenAI 的历史行为与此技术路线进行了拟合,尝试解释了许多让人困惑的历史行为,并更进一步对其未来的行为进行了推演;最后报告对基于大模型的生态和产业链的发展给出了自己的分析并提出了一些供大家思考的问题。
这是我们对 OpenAI 进行全面、系统、深度逆向工程后的产物,提供了一种从底层愿景出发来分析 OpenAI 历史行为和未来行动预测的独特视角,希能够对国内正在从事大模型研究、开发、投资的工作者们带来帮助。
原报告内容已"开源"并在持续更新中,欢迎大家阅读报告原文(原文链接:https://www.Notion.so/OpenAI-b1ccaaeecd77433cbdf4f10855878146?pvs=4)并参与内容的讨论。
本文作者:Kiwi,双币 VC VP。如果你正在 AI 领域创业、研究或有交流的想法,欢迎联系 Kiwi 的微信(812023467)讨论 。
目录:
1. OpenAI 的 AGI 愿景和对 GPT 技术路径的坚持
1. OpenAI 的 AGI 愿景和对 GPT 技术路径的坚持
1.1. OpenAI 的 AGI 愿景
在开始分析前,我们将 OpenAI 不同时期对自己 AGI 目标的描述进行回顾:
“Our goal is to advance digital intelligence in the way that is most likely to benefit humanity as a whole, unconstrained by a need to generate financial return.”——2015年12月11日《Introducing OpenAI》
“Our mission is to ensure that artificial general intelligence—AI systems that are generally smarter than humans—benefits all of humanity.”——2023年2月14日《Planning for AGI and beyond》
第一个变化是增加了对 AGI 的描述,指明了 AGI 的智慧程度会高于人类智能。
第二个变化是由不以财务回报为目的改为了普惠人类。
AGI 的概念目前并没有已形成共识的精准定义。前者变化是 OpenAI 基于过去几年的探索给出的判断,其追求 AGI 的本质没有改变。后者则是 OpenAI 在更深入的技术探索后,进行了股权结构和商业化策略的调整,背后逻辑后续会详细展开。
总体而言,鉴于 OpenAI 的历史言论和行动保持高度一致性,我们有理由相信:OpenAI 一直并将继续以追求普惠的 AGI 为第一目标——这个假设是本文后续进行生态推演的基本前提。
1.2 OpenAI 过去 5 年展现的外界难以理解的GPT“信仰”
1.2.1 阶段一: AGI 实现路径探索(2015.11-2017.06 )
重要技术判断1: Scale
重要技术判断2: Generative Model
而在 2017 年 4 月发布 Unsupervised Sentiment Neuron 算法的文章《Learning to Generate Reviews and Discovering Sentiment》中指出,“真正好的预测与理解有关”,以及“仅仅被训练用于预测下一个字符之后,神经网络自动学会了分析情感” 。这篇文章在当时没有受到太多关注甚至被 ICLR 2018 拒稿,但我们分析认为,这个研究成果对 OpenAI 后续的研究产生了深远的影响,也为下一阶段 OpenAI all-in GPT 路线打下了基础。
1.2.2 阶段二:技术路径收敛,探索GPT路径工程极限(2017.06-2022.12 )
1.2.3 阶段三:后 chatgpt 阶段(2022.12至今 )
C 端:ChatGPT 第一次让没有编程能力的 C 端用户有了和 LLM 交互的界面,公众从各种场景全面对 LLM 能力进行挖掘和探索。以教育场景举例,美国媒体的抽样调查称, 89% 的大学生和 22% 的 K-12 学生已经在用 ChatGPT 完成作业和论文。截止 2023 年 3 月,ChatGPT 官网的独立访客量超过 1 亿(未进行设备去重)。2023 年 3 月 23 日,ChatGPT Plugin 的发布,让更多的人认为 ChatGPT 可能会发展为新的超级流量入口(——这是一个非常值得单独讨论的问题,由于本文主题今天暂不展开讨论)。
科技巨头。与 OpenAI 合作深度最深的 Microsoft 一方面裁撤整合内部的 AI 部门,一方面全产品线拥抱 GPT 系列产品。Google 多管齐下,原 LaMDA 团队发布对话产品 Bard,PaLM 团队发布 PaLM API 产品,同时投资 OpenAI 最主要竞对 Anthropic 3 亿美金。Meta 发布 LLaMA 模型并开源,LLaMA+Lora 模式是当前开源 LLM 中最活跃的生态(Alpaca-13B 与 Vicuna-13B)。Amazon 则和开源社区 HuggingFace 基于 LLM 生态展开更积极的合作。我们分析认为 OpenAI 目前与 Meta 的竞争更多在技术层面,对 Meta 的主营业务短期内没有冲击。然而 OpenAI+Microsoft 组合对于 Google 和 Amazon 却有业务层面的潜在巨大影响,后续会展开分析。 创业生态。一方面,ChatGPT 在 C 端迅速渗透激发了新一轮的 AI 创业热情,海量的 C 端应用案例也启发并加速了创业生态的发展。另一方面,LLM 能力边界与 OpenAI 产品边界的不确定性,让基于 GPT 模型基座构建的应用和传统应用担心自己的产品价值被湮没——我们会在后文拆解 OpenAI 行为逻辑以及 LLM 产业链生态后,对这个问题展开进一步讨论。 OpenAI:行业和生态的一系列连锁反应显然超出了 OpenAI 的预期,从 OpenAI 随后的动作我们推测核心影响有三:
同时当前 LLM 严重的 Hallucination(真假难辨的一本正经的胡说八道)问题,阻碍了 B 端的深度应用,也对 C 端内容环境产生了不良影响。与人类的互动可以减少 Hallucination,但不一定是最本质的解决方案。通过 Alignment 研究,让模型准确且忠实得响应人类诉求,会成为 OpenAI 下一步研究的重点。
2. OpenAI 的技术路径选择(GPT 架构的 LLM )是基于数学的理性推导而非神秘主义炼丹
首先给结论,经过对大量的访谈、课程、论文和访谈学习,我们大胆推测:OpenAI 认为,AGI 基础模型本质是实现对最大有效数据集的最大程度无损压缩。
2.1 OpenAI 认为:AGI 的智能 ≈ 泛化能力
Generalization refers to your model's ability to adapt properly to new, previously unseen data, drawn from the same distribution as the one used to create the model。
需要特别注意的是,泛化能力不等于泛化效率,下一章节会进一步展开。这也是 OpenAI 成立之初与业界最大的非共识。
2.2 模型泛化能力 ≈ 模型泛化效率 × 训练数据规模
这里的数学和抽象论证建议阅读冠叔、周昕宇(https://zhuanlan.zhihu.com/p/619511222)和欣然(https://zhuanlan.zhihu.com/p/616903436)的相关文章/知乎,这里不展开。
2.2.1 模型泛化效率 ≈ 模型压缩效率
AGI 的任务可以理解为:通过对训练数据集的压缩,实现对训练数据集所代表真实世界的最大程度泛化。 一个 AGI 模型的最小描述长度可以量化为模型的压缩效率。
2.2.2 训练数据的规模化和多元化对提高模型泛化能力至关重要
希望最快的 Scale 训练数据集,文本数据自然成了 OpenAI 的首选。因此过去五年, OpenAI 首先做的是在最容易 Scale 的单一模态文本上,把训练数据规模和模型参数量的极限拉满。LLM 只是起点,当文本数据被极限拉满后,我们有理由相信 OpenAI 会进一步扩大训练数据模态,其中包括可观测数据(特殊文本、图像、视频等)和不可观测数据(与虚拟世界和物理世界的互动数据)。
2.3 OpenAI 的技术路径选择逻辑总结
在这个技术理解下,GPT 架构的 LLM 路线是过去 5 年的最优技术路径选择,模型参数量和训练数据量的 Scale 则是必然行为。
2.4 OpenAI 的技术路径选择争议
AGI 的智能是否等于泛化能力?即对于通用任务的理解与泛化能力( OpenAI 为代表),与复杂困难的科学任务的研究能力( DeepMind 为代表),谁更能代表 AGI 的智能水平。 LLM 学到的是 Book AI?一些学者认为,LLM 在语言中学习到的知识和理解,和物理世界无法形成有效的映射,因此 LLM 的智能是浅薄的智能。 One Model Rules ALL?虽然 GPT 路线的大模型的泛化理解能力很高且在不断迭代,但是此路线导致了 Hallucination 的问题也会持续存在,那么在容错率接近0的高可靠性要求场景(如垂直复杂场景的API调用等)是否必须有不同垂直模型的空间? 指令微调和 RLHF 是不是解决 Alignment 问题的正确路径?一方面,指令微调和RLHF对于基础能力越来越强的LLM基座的Alignment的帮助有限。另一方面,指令微调通过牺牲reasoning性能换取与Alignment(Alignment Tax)。 GPT 路线是没有 Memory?当前的 GPT 系列模型在处理一些单次任务时表现出色,与 GPT 模型的前序交互信息无法自动写入下一次交互的 token。而AutoGPT等目前只能暴力回放历史,导致太多 token cost。这就导致 GPT 模型对于大量复杂的系统工程和连续的生产行为不友好。
3. 基于 OpenAI 的技术选择本质,理解 OpenAI 的过去和未来
3.1 拟合:OpenAI 的历史行为解释
基于此我们尝试对 OpenAI 的历史行为进行解释。过程中我们更感受到,Sam Altman (商业)+ Ilya Sutskever(算法) + Greg Brockman(工程)组合的稀缺性。OpenAI 今天的成果是算法、工程、数据、产品、GTM 团队密切配合的结果。
3.1.1 技术
1)为什么 Bert 在下游理解类任务表现出色(远高于 GPT-1 和 GPT-2 )时,OpenAI 仍然坚持 GPT 路线?
如前文分析,OpenAI 追求的是模型的泛化能力。所有的有监督学习都是无监督语言模型的一个子集。那么为了特定任务短期效果提升而选择有监督学习无疑是不本质的做法。
早期 BERT 在理解类子任务上的高表现,是因为对特定数据集通过有监督学习,可以更快速的得到对该任务的理解。当 GPT 等无监督模型的参数足够大且语料足够丰富时,通过无监督语言学习就可以完成其他有监督学习的任务。
2)为什么过去持续 Scale,未来还会持续大幅 Scale 吗?
GPT-1 至 GPT-3 的 Scale 是在文本模态上的训练数据量和模型参数量的双重 Scale。其中
训练数据量 Scale 是提升 AGI 泛化能力的必然选择。当前最容易 Scale 的是文本数据,但当文本模态的理解能力被逐渐拉满后,OpenAI 必然会开始相对不容易的数据 Scale 方式,即增加数据模态并进一步上量。可以看到 GPT-3.5 增加了特殊文本数据(代码)进行训练,GPT-4 引入了图像等数据模态。
模型参数量 Scale 是当前最优算法架构 Transformer 和最优算法路径 GPT 组合下,提升 AGI 泛化能力的副产物。如果未来 OpenAI 找到了更高效更优的算法,同样智能水平的 AGI 基础模型的参数量未必更大。
3)为何将工程能力的建设放到极高的优先级?
在与传统学术界的非共识下,OpenAI 很早就意识到了模型 Scale 的重要性。因此搭建了有工程能力的算法团队(Pretraining 组与 Alignment 组)和有算法理解的工程团队(Scaling 组)。并搭建了算法与工程紧密配合的组织架构。工程团队为算法团队做好高拓展性的基础设施,算法团队以工业化的方式设计算法训练。
一些可以窥见其工程能力(工业化的模型生产能力)的事实:
OpenAI 已经具备工业化训练并准确预测超大规模模型表现的能力。2021-2022 年,OpenAI 与 Azure 合作重构了 OpenAI 的基础设施。GPT-3 的训练是对这套基础设施的第一次使用,过程中发现并修复了一些 bug。基础设施的 bug 修复后,GPT-4 的训练就稳定且一气呵成了。并且利用这套基础,OpenAI 团队在 GPT-4 训练的初期,仅用了 1/10000 的算力进行小模型实验,就通过小模型实验的 loss 准确预测了 GPT-4 大模型的最终 loss。
开源 OpenAI Triton:没有CUDA经验也能够自动完成GPU编程的各种优化(内存合并,共享内存管理,SM 内调),用 Python 也能写出高效 GPU 代码。
4)为什么砍掉 Robotics 等项目 all in LLM?
简单来说,是因为 Robotics 技术的发展暂时落后于 AI 导致 RL 很难 Scale。
其实 Robotics 项目中使用的 RL 也是符合 OpenAI 技术审美的算法。并且 RL 和世界(虚拟与物理世界)的交互以及其中能够学习到的高维表征是 OpenAI 非常渴望探索的。但是当时受限于 Robotics 技术本身在发展初期,机器人无法 Scale 限制了 RL 算法和数据的 Scale。因此 OpenAI 选择了砍掉 Robotics 等项目 all in LLM。
5)为什么会有 Hallucination 问题?
OpenAI 追求的 AGI 智能是最大程度的模型泛化能力。LLM 的目的,并不是尝试“拟合”训练集,而是无损地找到训练集所代表的本质规律(概率分布),从而理解训练集以外的数据。因此 LLM 会生成出训练集之外的内容,造成 Hallucination 问题。
可以预期的是,随着 AGI 基础模型能力的逐步提升,Hallucination 问题会逐渐减轻。不过在当下,OpenAI 会采用预处理和后处理模型等补丁方案,临时减轻 Hallucination 问题以便让 LLM 具备更高的可用性和更低的有害性。
同时需要的注意的是,LLM 的文本训练语料中本身就存在谬误和价值观冲突,如何为 LLM 构建“价值判断”也是一个值得深入研究的问题。
3.1.2 产品
设计出能够帮助 OpenAI 收集更多有效数据的产品形态,以追求更高的 AGI 智能。 设计出基于当前 AGI 模型能力,更普惠大众的产品。
1)更普惠的 AGI 产品与“数据-应用”飞轮
ChatGPT GPT-1-4 系列的 API Codex API
2)收集更多有效数据反哺基础模型与“数据-模型”飞轮
DALL·E 与 Clip:图-文数据 ChatGPT Plugin:用户通过应用及 API 构建复杂任务处理方案的数据 OpenAI Codex Playground:用代码构建不同应用程序数据 OpenAI Universe:各类强化学习任务及训练数据 Rubik's Cube:模型与物理世界互动数据
3)两个数据飞轮之间的迁移与博弈
典型案例如 GPT 系列模型的 API 产品。GPT-1 与 GPT-2 是 OpenAI 在 LLM 模型上的初期产物,这个阶段的 OpenAI 需要更多的高质量文本数据,因此只向有限高质量用户开放 API,并且以免费和极低的浮动价格提供给用户。到了 GPT-3 发布时,OpenAI 在 LLM 能力上逐渐拉满,通用的文本数据对模型本身的能力提升 ROI 降低,因此 OpenAI 此时对产品进行标准定价并开放给更多用户。到今日,该系列产品已为不需要 waitlist 的标准产品。
典型案例如 Jasper 与 ChatGPT。由于 GPT 系列模型的 Alignment 问题,和 API 本身对 C 端用户的易用性问题,在 ChatGPT 发布前普通用户难以使用 LLM 的语言理解与生成能力。因此 Jasper 基于对 GPT 模型能力的理解和使用经验,打造了优于市面所有竞品的营销内容生成平台,并用一年多的时间迅速涨至 9000万 美金的 ARR。然而 ChatGPT 的面市将 Jasper 的优势迅速拉低,模型能力之上过薄的产品令市场质疑其业务的护城河。虽然目前公司的营收仍在高速增长,但是 Jasper 也不得不从营销内容生成平台向营销链路 SaaS 转型,以获取更安全的生态位。这类迁移不是 OpenAI 主观设计的,却是基础模型能力提升必然会发生的。
值得注意的是,“正确理解用户意图,准确选择并使用合适的工具可靠地完成任务”这个场景目前竞争激烈。除了 OpenAI 外,Adept AI、Inflection AI 以及 Meta 的 Toolformer 模型都在竞争此领域的生态位。进一步讨论,如果 LLM 未来真的成为新一代的人机交互界面,准确性和可靠性是必要条件。
换言之,如果垂直领域的任务复杂度足够深、数据足够独特且数据量足够大,不拥抱通用 LLM 生态而自研垂直领域大模型,可能是一个至少短期内合理的博弈。
整体而言,这两个数据飞轮之间的产品迁移和博弈将会持续存在。
3.1.3 GTM(Go-To-Market)与商业化
整体而言,我们认为 OpenAI 的 GTM 和商业化策略是普惠大众与保持自身独立性间的 trade-off,且公司会在权衡中持续摇摆。
1)从 OpenAI 到 OpenAI LP:非盈利向有限盈利的转型
有限盈利的商业化策略,会使 OpenAI GTM 和商业化决策不同于传统的科技巨头,进而影响行业生态。
2)微软与 OpenAI 的合作蜜月期
资金:2019 年和 2021 年两轮投资总计约 30 亿美元,2023 年 1 月据悉追加了 100 亿美元投资; 工程 Infra 的助力:Azure 对 OpenAI 模型的训练和推理投入了专门的团队支持。更重要的是 2021-2022 年,Azure 和 Greg 带领的 Infra 团队重构了 OpenAI 的整个基础设施,得到了稳定性和可拓展性都极高的模型训练 Infra(可预测的 Scale 对 OpenAI 很重要); 多元优质的特殊数据:GitHub 和 Bing 等特殊的文本数据; C 端心智占领和丰富的通用应用场景:GitHub(7300 万开发者用户)、Office 套件(1.45 亿的日活)、Xbox(Xbox Live 9000 万月活)分别为 OpenAI 试水 LLM 应用提供了开发者、通用生产力和营销工具、游戏等优质的通用应用场景,与 LLM 形成独有的数据飞轮; B 端的客户资源和垂直场景:Azure 拥有 95% 的财富 500 强企业,有超过 25 万家公司使用 Microsoft Dynamics 365 和 Microsoft Power Platform;
Azure(进攻):作为 OpenAI 的云服务供应商,Azure 是 OpenAI产品 在公有云场景的独家使用平台。如果我们认为未来人类数字活动的 AI 含量将大幅提升,且 OpenAI 的产品会占据大部分份额。那么 Azure 很有可能会获得大部分云计算增量推理市场。同时,Azure 与 OpenAI 共同研发的大规模训练基础设施若开放,则还能获得大部分云计算训练市场。长期来看,这对 AWS 会造成不小的挑战和冲击。 办公套件(防守):Office 套件中所有单品都在受到新型玩家的挑战(Notion、Airtable 等),OpenAI copilot 与 Office 套件的结合既升级了单品,也放大了 Office 各单品间联动的优势。 Bing Search(防守):很多投资者认为 Bing Search 会颠覆Google。我们在这里有不同的观点。Bing 与 ChatGPT 补丁式的合作其实不改变搜索体验本质,但却是会抢走部分 Google 的搜索流量。真正有可能颠覆 Google 搜索是类似 Perplexity 的 LLM 原生的全新搜索产品。在搜索中增加 LLM 其实反过来会增加单 query 的成本(根据各类推算,不优化的话,当前可能2-3倍于传统搜索),进而降低传统搜索业务的利润空间。而 Google 对于搜索业务的依赖远高于 Microsoft,战略上也就更难受。但不管对于 Bing 还是 Google Search,原本极高的搜索广告营收都阻碍了它们真正在 LLM 语境下像 Perplexity 一样构建全新的信息和知识获取引擎。
3)ChatGPT 意外收获的 C 端市场,从基础模型层向应用层的扩展
ChatGPT 让 OpenAI 意外收获了 C 端市场,近 4 个月的时间 ChatGPT 官网总访问量超过 10 亿,独立访客数超过 1 亿。从生态繁荣的角度,基础层涉足应用层在任何产业链中都是大忌,这会极大打击生态位上层玩家对基础层的信任,但是 OpenAI 在此问题上展现出了极大的“无所顾忌”,而这种行为从 AGI 愿景以及更好的数据 Scale 角度可以得到解释:
更低成本的数据获取:通过对 C 端的流量与心智占领,如今 ChatGPT 与 OpenAI 已成为了当前 LLM 的代名词和行业标准。作为一项全新的技术和产品,心智占领可以让 OpenAI 持续以更低的 GTM 成本获得用户数据。
更丰富场景有效数据的获取:比如 Plugin,我们推测,通用的对话数据对于 GPT-4 的边际价值已经不大,但是 Plugin 所收集的通过使用工具完成用户任务的数据非常有价值。这个可能是未来成为真正的新一代人机交互界面的关键(前文提到这个领域竞争激烈)。
通过更多长尾对话和应用场景来优化模型能力:一方面可以加快 Alignment 和安全性的研究,一方面也可以挖掘更多潜力场景。
最大限度保持普惠 AGI 的初心:通过商业化得到巨大的造血潜力,有机会让 OpenAI 未来减少对巨头的依赖并健康的可持续发展
4)通过投资构建生态和补齐 AGI 探索需要的技术伙伴
应用层公司
芯片、机器人等前沿科技公司
OpenAI 在 AGI 上的探索预计将长期领跑于行业,这会导致 OpenAI 需要探索更多先进的产品和工具来满足自身的研究需要。如,新架构的芯片服务更大规模更多模态的模型训练,更先进更低成本的机器人让 OpenAI 未来有机会做与物理世界互动的 RL 的 Scale 等。
3.2 预测:OpenAI 的未来行为推演
3.2.1 技术
1)进一步增加 LLM 没见过的有效数据,拥抱多模态
通用文本数据:边际收益变低,引入更多其他类型的文本数据,如代码、其他可计算语言
图像视频等模态数据:图像和视频数据在 Transformer 架构下训练效率很低, Scale 的训练成本会以平方或平方以上级上升
与比特世界的互动数据:如前文所述,OpenAI 一直想做 RL(强化学习),但过去 Robotics 的RL很难Scale,但在比特世界有大量的用户场景可以尝试
与物理世界的互动数据:通过机器人等与物理世界互动做 RL 的 Scale,这里的进度很大程度取决于机器人技术的发展速度
2)RL 的 Scale
3)Robotics 与 Embodied AGI(具身智能)
4)寻求能更高效 Scale 更多模态数据的新算法架构
5)对于模型的推理和涌现能力的深度理解
6)增加模型的可靠性、可控性和安全性
可靠性:Hallucination 问题的弱化;
可控性:准确的理解并执行任务。今天 ChatGPT 引入了 Wolfram,用第三方组件的方式给了过渡方案。未来一定会努力在模型本身增加可控性;
安全性:不作恶以及不被恶人利用。
在这三点上,如何做好 Alignment 很重要。RLHF(Reinforcement Learning from Human Feedback)只是第一步。
3.2.2 产品
1)为了进一步提高 AGI 模型能力,OpenAI 会设计更多能获得有效数据、进行模型实验、与用户互动迭代的产品
这里的关键是有效数据。之前提到 Ilya 过去的技术审美喜欢“基础算法规模化”。同样的在数据侧,我们认为 OpenAI 会优先选择容易 Scale 的,容易训练的数据。未来 OpenAI 可能会将产品与模型训练过程结合,将用户行为变成模型训练的一部分。
2)为了让 AGI 产品被更广泛地合理使用,OpenAI 会更小心的控制模型能力释放给公众的节奏
AGI 不只是提升社会生产力,而是提升社会生产力进步的速度。Sam 已在多篇文章和访谈中强调了AI安全性、AI带来的未来贫富差距拉大等一系列社会问题。GPT-3.5 以上的模型事实已经开始影响人类社会许多工种的生态。GPT-4 目前发布的是降级版。可以预测,OpenAI 未来可能会和更多的社会研究机构对模型能力可能造成的潜在影响进行预测,并放缓模型能力释放的节奏,给相关行业缓冲期。
3.2.3 GTM 和商业化
1)GTM 策略上,OpenAI 会持续捕捉 C 端的 Attention,同时与 B 端展开更多元的生态合作
C 端流量同时为 OpenAI 提供了各类收集数据的有效渠道和变现造血能力,预测 OpenAI 会持续谋求更大的 C 端流量、更长的用户停留和更深的用户行为。Attention 和心智占领对于 C 端产品尤为重要。Anthropic 的对话产品 Claude 与 ChatGPT 能力上不分伯仲,但在 C 端的认知度和流量都远低于 ChatGPT 和 Bard。
B 端则会持续通过与微软的生态全方面合作、创业公司的使用激励、投资等角度,加速“数据-模型”飞轮的转动。
2)有限商业化
有强反哺模型目标的产品免费;
C 端通用产品贴成本定价(未来甚至可能免费);
B 端产品有限盈利;
4. LLM 产业链分析
4.1 宏观视角下 LLM 生态
4.1.1 当前行业增量营收分布推测:应用层 30-40%,模型层 0-10%,计算基础设施服务 50-70%
根据 A16Z 对美国 LLM 创业调研,纯应用厂商毛利约 60%-80%,20-40% 的营收用于推理和模型 fine-tuning;
应用厂商当前用户和营收增长迅速,当前已经多厂商 ARR 达 1 亿美金;
虽然用户数量和营收都在高速增长,但很多应用厂商都面临用户留存率低、竞争加剧和护城河浅等关键问题;
根据 GPT-3.5 的模型参数量和价格测算,推测 OpenAI 几乎是以成本或极低的毛利对 API 定价。且根据对海外竞品 LLM 公司的访谈,竞品同类能力模型都在做推理成本优化以匹配 GPT-3.5 的价格(尚未达到);
未来纯模型厂商若模型能力与 OpenAI 的标准产品同质化,推理价格必然需要长期匹配有限盈利的 OpenAI 普惠大众的商业化策略。LLM 的训练成本又极高,纯模型厂商面临极大的商业化压力;
推理上拿到 20-40% 的价值;
训练成本极高:以当前的 A100 价格计算,千亿模型(GPT-3.5)训练成本约 2000 万人民币;在 LLM 进入多模态阶段后,预计 SOTA 的模型训练计算量增长会超过单位计算成本的下降速度,且短期内会有更多模型层玩家进入市场,预计 1-3 年内 LLM 的训练市场会增长迅速。
训练侧更多 LLM 玩家的入场及多模态模型进一步 Scale,推理侧 LLM 在进入爆发式增长起点,云计算和计算硬件市场将加速增长。云计算厂商行业格局可能发生较大变动。
4)由于当前 LLM 生态在发展初期,开发者工具的生态位还不稳定,本文暂不展开讨论。
4.1.2 未来应用层高速增长且毛利可能改善,模型层竞争加剧,计算基础设施厂商将持续高速增长
在盘点了当前 LLM 生态的宏观格局后,我们放大讨论各个局部,开放式地提出一些值得探讨的话题。但是现在行业处于剧烈变化的阶段,我们基于当前的理解给出一观点,更多的是为了激发大家的讨论。
4.2 LLM 是否会进入价格战,模型层价格收否终将收敛到云计算的价格?
需要声明的是,长期来看,我们不认为这一波 AI 浪潮的价值都会被基础设施厂商消化。与国内 2010 年后的第一波 cv(Computer Vision)浪潮不同,现今 LLM 的下游高价值场景非常发散,并不会收敛到 1-3 个(人脸识别在安防、身份认证等)标准场景上。LLM 模型层将获得更多溢价。
4.3 路径不同的 LLM 公司是会分岔还是收敛?
我们认为 LLM 模型发展发向很有可能是一个“收敛-发散-再收敛”的过程。短期工作有很多会收敛,接下来在垂直领域会分岔,当长期工作有了阶段性成果后会再收敛。
4.4 LLM:开源 VS 闭源?
我们提供一个分析角度:开源本质是产品研发和 GTM 的一种方式。社区的活跃程度不能等同于商业价值。对于 LLM 的研发,开源是否能提供闭源不具备的价值?无论 GTM 的路径是什么,客户最后买单的是产品价值。开源闭源产品能力或服务体验是闭源产品无法满足的?
4.5 计算基础设施层的增量会有多大?是否有新云的机会?如果有新云,是由上往下还是由下往上?
毋庸置疑的是,无论是新老玩家,与 LLM 的竞和战略对云计算服务厂商至关重要(就在发文当天,AWS 发布 Amazon Bedrock,正式加入战局)。
4.6 下游应用和工具是否有稳定的生存空间
Bloomberg 则不然。我们相信拿 Bloomberg 的数据 fine-tune GPT 模型,无论是效果还是成本都会优于 BloombergGPT。但 Bloomberg 掌握了金融的深度场景、量足够大且足够独特的私有数据,便掌握了和 OpenAI 博弈的能力。当然另一个层面的囚徒困境是:如果你选择不拥抱通用模型生态,是否会输给搭建于大模型之上的竞争对手?
4.7 模型层与应用层的价值分配
我们判断不会。因为不同智能含量的场景,需要的模型能力和能承受的模型价格都是不同的。举例来说,写 10 条小红书的营销文案可能需要月工资 5000 元的员工 1 小时,而 10 条跨国法律合同修改意见则需要小时工资 400 美元的海外律师 1 小时。二者对模型成本的敏感性显然差很多。
4.8 C 端的超级流量入口?平台还是管道(Platform VS Pipeline)?
并不是所有 LLM 追随者都能成功复刻 GPT 模型+ChatGPT+Plugin 路径的。正如前文分析 OpenAI 今天的成就是技术+产品+ GTM 综合的结果。即使如中国般相对独立的区域市场,也需要真正领先的技术能力与战略能力结合才能成功。
结束
以上是 OneMoreAI 根据原报告整理的压缩版,报告原文中除了对上文提到的信息有更深入和具体的分析外,也留下了很多问题待进一步研究和讨论。
LLM 行业还在起步阶段,生态仍未稳定,未来充满了不确定性。我们从逆向工程 OpenAI 的思路出发,尝试解释并预测行业最关键玩家的行为,希望建立一个能够对 LLM 生态进行系统性讨论的宏观框架供大家讨论,一起迎接这个历史性的 AI 浪潮。
感谢Dylan,冠叔,龙老师,思彤,Try总,欣然,周昕宇,张卓对本文的帮助和贡献(拼音顺序排列)。
本文作者:Kiwi,双币VC VP。如果你正在AI领域创业、研究或有交流的想法,欢迎联系 Kiwi 的微信(812023467)讨论 。
报告原文链接(欢迎在原文Comments讨论):https://www.notion.so/OpenAI-b1ccaaeecd77433cbdf4f10855878146?pvs=4
Introducing OpenAI
https://openai.com/blog/introducing-openai
Planning for AGI and Beyond
https://openai.com/blog/planning-for-agi-and-beyond
Generative models
https://openai.com/research/generative-models
Unsurpervised Sentiment Neuron
https://openai.com/research/unsupervised-sentiment-neuron
Improving Language UnderstAnding by Generative Pre-Training https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
Language Models are Unsupervised Multitask Learners https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
Language Models are Few-Shot Learners
https://arxiv.org/abs/2005.14165
OpenAI LP
https://openai.com/blog/openai-lp
Aligning language models to follow instructions
https://openai.com/research/instruction-following
Training Language Models to Follow Instructions with Human Feedback
https://arxiv.org/abs/2203.02155
ChatGPT
https://openai.com/blog/chatgpt
GPT-4 Technical Report
https://www.forbes.com/sites/chriswestfall/2023/01/28/Educators-battle-plagiarism-as-89-of-students-admit-to-using-open-ais-chatgpt-for-homework/ https://openai.com/blog/chatgpt-plugins
https://www.similarweb.com
Bard
https://bard.google.com/
PaLM API
https://blog.google/technology/ai/ai-developers-google-cloud-workspace/
LLaMA: Open and Efficient Foundation Language Models https://arxiv.org/abs/2302.13971
Alpaca: A Strong, Replicable Instruction-Following Model
https://crfm.stanford.edu/2023/03/13/alpaca.html
Vicuna: An open-source chatbot Impressing GPT-4 with 90%* ChatGPT Quality https://vicuna.lmsys.org/
Compression for AGI - Jack Rae | Stanford MLSys #76
https://www.YouTube.com/watch?v=dO4TPJkeaaU&t=247s
AI Today and Vision of the Future (Ilya Sutskever interviewed by NVIDIA's Jensen Huang)
https://youtu.be/ZZ0atq2yYJw
OpenAI Meta-Learning and Self-Play
https://www.youtube.com/watch?v=9EN_HoEk3KY
Minds, brains, and programs
https://www.cambridge.org/core/journals/behavioral-and-brain-sciences/article/abs/minds-brains-and-programs/DC644B47A4299C637C89772FACC2706A
Mastering the game of Go with deep neural networks and tree search https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf
Highly accurate protein structure prediction with AlphaFold https://www.nature.com/articles/s41586-021-03819-2
Improving alignment of dialogue agents via targeted human judgements
https://arxiv.org/pdf/2209.14375.pdf
https://alphacode.deepmind.com/
Aligning language models to follow instructions
https://openai.com/research/instruction-following
Constitutional AI: Harmlessness from AI Feedback https://arxiv.org/pdf/2212.08073.pdf
Evaluating Large Language Models Trained on Code https://arxiv.org/pdf/2107.03374.pdf
GPT-4 Technical Report
https://cdn.openai.com/papers/gpt-4.pdf
https://www.linkedin.com/posts/weights-biases_peter-welinder-of-openai-on-how-they-use-activity-7042149010198974464-28DP
OpenAI Triton
https://github.com/openai/triton
BloombergGPT: A Large Language Model for Finance https://arxiv.org/pdf/2303.17564.pdf
https://fortune.com/2023/03/27/altman-vs-musk-openai-treads-on-teslas-robot-turf-with-investment-in-norways-1x/
https://www.reuters.com/technology/microsoft-talks-invest-10-bln-chatgpt-owner-semafor-2023-01-10/
Technology and wealth inequality
https://blog.samaltman.com/technology-and-wealth-inequality
Introducing Claude
https://www.anthropic.com/index/introducing-claude
Who Owns the Generative AI Platform?
https://a16z.com/2023/01/19/who-owns-the-generative-ai-platform/
欢迎在小宇宙、苹果 Podcast 搜索并关注我们的播客:OneMoreAI
加入我们的社群,和更多 AI 从业者交流讨论。(若扫码入群失败,请添加小助手微信:tscarlett)
觉得内容还不错的话,给我点个“在看”呗
本篇文章来源于微信公众号: 我思锅我在