终极“揭秘”:GPT-4模型架构、训练成本、数据集信息都被扒出来了

机器之心报告

机器之心编辑部

一直以来,大家都对GPT-4的模型架构、基础设施、训练数据集、成本等信息非常好奇。

不过,嘴巴太严了。 长期以来,大家对这些数据都只是猜测。

不久前,“天才黑客”乔治·霍茨(Hotz)在接受名为 Space 的 AI 科技播客采访时透露了一个八卦,称 GPT-4 是一个由 8 个混合专家模型组成的集成系统,每个专家模型都有 220 个十亿个参数(略多于 GPT-3 的 1750 亿个参数),并且这些模型是根据不同的数据和任务分布进行训练的。

虽然这个消息无法得到证实,但其热度非常高,也被一些业内人士认为很有道理。

近日,似乎有更多消息被泄露。

今天,发布了付费订阅内容,“揭晓”了有关 GPT-4 的更多信息。

文章称,他们从多个来源收集了大量有关 GPT-4 的信息,包括模型架构、训练基础设施、推理基础设施、参数量、训练数据集构成、令牌量、层数、并行策略、多模态视觉适配、不同工程权衡背后的思维过程、独特的实现技术以及如何缓解与推理巨大模型相关的瓶颈等。

作者表示,GPT-4 最有趣的方面是理解为什么做出某些架构决策。

此外,文章还介绍了GPT-4在A100上的训练和推理成本,以及如何扩展到下一代模型架构H100。

我们根据 Deep(算法交易公司)创始人 Yam Peleg 的一条推文(现已删除)整理了以下有关 GPT-4 的数据信息。 有兴趣的读者可以仔细研究一下。

但请注意,这并非官方确认的数据,您可以自行判断其准确性。

1、参数量:GPT-4的大小是GPT-3的10倍以上。 该文章考虑了其 120 层网络中总共 1.8 万亿个参数。

2.它确实是一个混合专家模型。 能够通过使用混合专家 (MoE) 模型来保持成本合理。 他们在模型中使用了16个专家模型,每个专家模型大约有111B个参数。 其中 2 个专家模型被路由到每个前向传递。

3. MoE 路由:尽管文献中有很多关于高级路由算法的讨论,用于选择将每个令牌路由到哪个专家模型,但据说当前的 GPT-4 模型中采用了相当简单的路由方法。 该模型使用大约 550 亿个共享参数进行注意力计算。

4. 推理:每次前向传递(生成 1 个代币)的推理仅使用约 2800 亿个参数和约 560 TFLOP 的计算量。 相比之下,纯密集模型每次前向传递需要约 1.8 万亿个参数和约 3700 TFLOP 的计算。

5.数据集:GPT-4的训练数据集包含约13万亿个代币。 这些token是重复计算的结果,统计了多个epoch的token。

历元数:对基于文本的数据进行 2 个历元的训练,对基于代码的数据进行 4 个历元的训练。 此外,内部还有数百万行指令微调数据。

6. GPT-4 32K:在预训练阶段,GPT-4使用8k的上下文长度()。 GPT-4的32k序列长度版本是通过预训练后对8k版本进行微调得到的。

7. Batch Size:在计算集群上,几天之内,batch size逐渐增大,最后,batch size达到了6000万! 当然,由于并非每个专家模型都能看到所有令牌,因此这只是每个专家模型 750 万个令牌的批量大小。

实际批量大小:将此数字除以序列长度 (seq len) 即可得到实际批量大小。 请停止使用此类误导性数字。

8.并行策略:为了在所有A100 GPU上进行并行计算,他们采用了8路张量并行,因为这是极限。 此外,他们还采用了15条并行流水线。 (很可能使用了 ZeRo Stage 1,并且可能使用了块级 FSDP)。

9. 训练成本:GPT-4的训练大约使用了2.15e25 FLOPS,使用了大约25,000个A100 GPU,训练90到100天,利用率(MFU)约为32%到36%。 这种极低的利用率部分是由于需要重新启动检查点的大量故障造成的。

如果云中每个 A100 GPU 每小时的成本约为 1 美元,那么仅此训练课程就需要花费约 6300 万美元。 (如今,约 8192 个 H100 GPU 的预训练时间缩短至约 55 天,成本为 2150 万美元信息架构,每个 H100 GPU 每小时 2 美元。)

10. 当使用专家混合模型时: 使用专家混合模型时有很多方面。

例如,在推理过程中处理 MoE 非常困难,因为并非模型的每个部分在每次令牌生成时都会被利用。 这意味着当某些部件正在使用时信息架构,其他部件可能处于闲置状态。 这会严重影响为用户提供服务时的资源利用率。 研究人员表明,使用 64 到 128 名专家可以比使用 16 名专家获得更好的损失,但这只是研究结果。

选择较少的专家模型有几个原因。 选择 16 个专家模型的一个重要原因是,在许多任务中,更多的专家模型更难泛化,并且可能更难收敛。

由于如此大规模的训练,专家模型数量的选择更加保守。

11、推理成本:GPT-4的推理成本是1750亿参数模型的3倍。 这主要是因为GPT-4需要更大的集群并且利用率低得多。

使用 128 个 A100 GPU 进行推理时,8k 版本 GPT-4 的推理成本估计为每 1,000 个令牌 0.0049 美分。 使用 128 个 H100 GPU 进行推理,相同 8k 版本的 GPT-4 推理成本为每 1,000 个代币 0.0021 美分。 值得注意的是,这些估计假设了高利用率并保持高批量大小。

12. Multi-Query:与其他机构一样,也使用Multi-Query(MQA)。 由于使用MQA只需要一个注意力头,因此可以显着减少KV缓存的内存容量。 即便如此,序列长度为 32k 的 GPT-4 肯定无法在 40GB A100 GPU 上运行,而序列长度为 8k 的模型则受到最大批量大小的限制。

13.连续:实现可变批量大小和连续。 这样做是为了允许一定程度的最大延迟,并优化推理成本。

14. :它是独立于文本编码器的视觉编码器,两者之间具有交叉注意力。 该架构类似于 . 这在 GPT-4 的 1.8 万亿个参数之上添加了更多参数。 在对纯文本进行预训练后,它在另外约 2 万亿个令牌上进行了微调。

对于视觉模型,他们想从头开始训练,但由于还不成熟,他们决定先从文本开始训练,以降低风险。

这种视觉功能的主要目的之一是使自主代理能够读取网页并转录图像和视频中的内容。

他们训练的部分数据是联合数据(包括渲染的 LaTeX/文本)、网页截图、视频(采样帧),并在其上运行以获得转录文本。

15. 推测解码( ):GPT-4 的推理过程中可能会使用推测解码技术(不确定是否是 100%)。 该方法是使用更小、更快的模型提前解码多个令牌,并将它们作为单个批次输入到大型预测模型中。

如果小模型的预测是正确的,大模型也会同意,我们可以在单个批次中解码多个令牌。

但是,如果大模型拒绝草稿模型预测的令牌,则该批次的其余部分将被丢弃,我们继续使用大模型进行解码。

一些阴谋论指出,新的 GPT-4 质量下降,这可能只是通过让推测解码模型(模型)将概率较低的序列传递给预测模型而导致了这种误解。

16. 推理架构:推理运行在由 128 个 GPU 组成的集群上。 多个这样的集群存在于不同位置的多个数据中心中。 推理过程使用8路张量并行( )和16路管道并行( )。 每个由 8 个 GPU 组成的节点只有大约 1300 亿个参数。

该模型有 120 层,因此适合 15 个不同的节点。 第一个节点可能具有较少的层,因为它还需要计算嵌入。

根据这些数字,如果尝试根据最佳指标进行训练,他们应该使用两倍的令牌。 这表明他们很难获得高质量的数据。

最后我想说的是,这应该是迄今为止关于 GPT-4 最详细的数据披露。 目前还无法验证是否属实,但值得研究。 正如原作者所说,“有趣的方面是理解为什么做出某些架构决策。”

您如何看待 GPT-4 的架构信息?

未经允许不得转载:新动力营销圈 » 终极“揭秘”:GPT-4模型架构、训练成本、数据集信息都被扒出来了

赞 (0)

相关推荐

    暂无内容!