GitHub地址:https://github.com/microsoft/DeepSpeed
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
摘要
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed-Chat是一个支持端到端的基于人工反馈机制的强化学习(RLHF)的规模化系统,用于训练强大的类ChatGPT模型。它可以极大地简化ChatGPT类型模型的训练和强化推理体验。
要点
- ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮
- 使用现有的开源系统训练一个具有 67 亿参数的类ChatGPT模型通常需要昂贵的多卡至多节点的GPU集群,但这些资源对大多数数据科学家或研究者而言难以获取
- ChatGPT模型的训练是基于InstructGPT论文中的RLHF方式
- DeepSpeed-Chat具有三大核心功能:简化训练和强化推理体验、DeepSpeed-RLHF 模块、DeepSpeed-RLHF 系统
- DeepSpeed-Chat支持使用 Huggingface 预训练的模型、使用 DeepSpeed-RLHF 系统运行 InstructGPT 训练的所有三个步骤、甚至生成你自己的类ChatGPT模型
- DeepSpeed-Chat旨在让ChatGPT类型的模型更容易被普通数据科学家和研究者使用,并使RLHF训练真正普及到AI社区
- DeepSpeed-HE能够在RLHF中无缝地在推理和训练模式之间切换,使其能够利用来自DeepSpeed-Inference的各种优化,如张量并行计算和高性能CUDA算子进行语言生成