即时：NVIDIA AI平台大幅提高大型语言模型的性能

来源：中关村在线时间：2022-07-30 06:51:10

随着大型语言模型（LLM）的规模和复杂性日益增加，NVIDIA宣布对NeMo Megatron框架进行更新，将训练速度提高30%。

NVIDIA AI平台大幅提高大型语言模型的性能

【资料图】

此次更新包括两项开创性的技术和一个超参数工具，用于优化和扩展任意数量GPU上的LLM训练，这为使用NVIDIA AI平台训练和部署模型提供了新功能。

BLOOM是全球最大的开放科学、开放存取多语言模型，具有1760亿参数。该模型最近在NVIDIA AI平台上进行了训练，支持46种语言和13种编程语言的文本生成。NVIDIA AI平台还提供了最强大的转换器语言模型，具有5300亿参数，Megatron-Turing NLG模型 (MT-NLG)。

LLMs的最新进展

LLM是当今重要的先进技术之一，涉及从文本中学习的多达数万亿参数。但LLM的开发过程昂贵而耗时，需要深厚的技术知识、分布式基础设施和全栈式方法。

LLM也大大有助于推动实时内容生成、文本摘要、客服聊天机器人以及对话式AI问答界面的发展。

为了推动LLM的发展，人工智能（AI）社区正在继续对Microsoft DeepSpeed，Colossal-AI和Hugging Face BigScience和Fairscale等工具进行创新，这些工具均由NVIDIA AI平台提供支持，包括Megatron-LM、Apex和其他GPU加速库。

这些对NVIDIA AI平台的全新优化有助于解决整个堆栈中现有的许多痛点。NVIDIA期待着与AI社区合作，让每个人都能享受到LLM的力量。

更快速构建LLMs

NeMo Megatron的最新更新令GPT-3模型的训练速度提高了30%，这些模型的规模从220亿到1万亿个参数不等。现在使用1024个NVIDIA A100 GPU只需24天就可以训练一个拥有1750亿个参数的模型。相比推出新版本之前，获得结果的时间缩短了10天或约25万个小时的GPU计算。

NeMo Megatron是快速、高效、易于使用的端到端容器化框架，它可以用于收集数据、训练大规模模型、根据行业标准基准评估模型，并且以最高水准的延迟和吞吐性能进行推理。

它让LLM训练和推理在各种GPU集群配置上变得简单、可复制。目前，早期访问用户客户可在NVIDIA DGX SuperPOD、NVIDIA DGX Foundry以及Microsoft Azure上运行这些功能。对其他云平台的支持也即将推出。

另外，用户还可以在NVIDIA LaunchPad上进行功能试用。LaunchPad是一项免费计划，可提供短期内访问NVIDIA加速基础设施上的动手实验室目录的机会。

两项加速LLM训练的新技术

此次更新包括两项用于优化和扩展LLM训练的新技术——序列并行（SP）和选择性激活重计算（SAR）。

SP通过注意到变换器层中尚未并行化的区域在序列维度是独立的，以此扩展张量级模型的并行性。

沿序列维度分割层，可以将算力以及最重要的内激活内存分布到张量并行设备上。激活是分布式的，因此可以将更多的激活保存到反向传播中，而无需重新计算。

图1. Transformer层内的并行模式

SAR通过注意到不同的激活在重计算时需要不同数量的运算，改善了内存限制迫使重新计算部分（但不是所有）激活的情况。

可以只对每个Transformer层中占用大量内存，但重新计算成本不高的部分设置检查点和进行重新计算，而不是针对整个变换器层。

图2. 自注意力块。红色虚线表示使用选择性激活重计算的区域

图3. 反向传播中因SP和SAR的存在而获得的激活内存量。随着模型大小的增加，SP和SAR都会产生类似的内存节省，将内存需求减少约5倍

图4. 完全激活重计算和SP+SAR的计算开销。条形图表示每层的前向、反向和重计算时间细分。基线代表没有重计算和序列并行时的情况。这些技术有效地减少了所有激活被重计算而不是保存时产生的开销。最大模型的开销从36%下降到仅为2%

运用LLM的力量，还需要高度优化的推理策略。用户可以十分轻松地将训练好的模型用于推理并使用P-tuning和提示调整功能优化不同的用例。

这些功能是轻量化微调的有效替代方案，使LLM能够适应新的用例，而不需要采取微调全部预训练模型这种繁琐的方法。在这项技术中，原始模型的参数并没有被改变，因此避免了与微调模型相关的灾难性的“遗忘”问题。

用于训练和推理的新超参数工具

在分布式基础设施中为LLM寻找模型配置十分耗时。NeMo Megatron带来了超参数工具，它能够自动找到最佳训练和推理配置，而不需要修改代码，这使LLM从第一天起就能在训练中获得推理收敛性，避免了在寻找高效模型配置上所浪费的时间。

该工具对不同的参数使用启发法和经验网格搜索来寻找具有最佳吞吐量的配置，包括数据并行性、张量并行性、管道并行性、序列并行性、微批大小和激活检查点设置层的数量（包括选择性激活重计算）。

通过使用超参数工具以及在NGC容器上的NVIDIA测试，NVIDIA在24小时内就得到了175B GPT-3模型的最佳训练配置（见图5）。与使用完整激活重计算的通用配置相比，NVIDIA将吞吐量速度提高了20%-30%。对于参数超过200亿的模型，NVIDIA使用这些最新技术将吞吐量速度进一步提升10%-20%。

图5. HP工具在几个容器上的结果显示了通过序列并行和选择性激活重计算实现的速度提升，其中每个节点都是NVIDIA DGX A100

超参数工具还可以找到在推理过程中实现最高吞吐量或最低延迟的模型配置。模型可以设置延迟和吞吐量限制，该工具也将推荐合适的配置。

如要探索NVIDIA AI平台针对LLM的最新更新，可申请NeMo Megatron早期访问名额。企业也可在NVIDIA LaunchPad上免费试用NeMo Megatron。

英伟达 NVIDIA T600 4G GDDR6 专业显卡工业包装

[经销商]京东商城

[产品售价]1459元

进入购买

英伟达 NVIDIA RTX A6000 48G GDDR6 专业显卡原装盒包

[经销商]京东商城

[产品售价]34799元

进入购买

标签： NVIDIA

上一篇：今日要闻!希望裁员3万人惹了众怒大众CEO迪斯“被”离职
下一篇：今日热门!惠普VICTUS光影精灵8新时代商务精英的全能生产力工具