连续无故障训练15天！摩尔线程发布夸娥智算集群KUAE 1.2

admin数码19/08/2024 20:10:078090

8月19日消息，摩尔线程正式发布了夸娥智算集群KUAE 1.2版本，通过软硬件层面的综合性优化，在功能、性能上多维升级，更高效、稳定，对生态系统更友好，可为大模型训练提供更坚实可靠的算力支撑。

夸娥1.2主要升级点：

▼MFU提升10% 最高可达55%

在新版本中，使用千卡集群训练千亿模型，MFU(模型算力利用率)提升10%。

稠密模型集群训练中，MFU最高达到55%。

▼Flash Attention2优化

通过集成最新的MUSA SDK平台与优化后的Flash Attention2技术，结合新版Torch MUSA和算子融合，显著提升了大模型训练的效率与资源利用率，大幅缩短训练周期，并降低了整体成本。

▼64K长文本支持

增强了对长文本大模型训练的支持，优化了处理长文本理解和生成任务的能力，能够更好地应对文档摘要、文章写作等复杂语言处理任务。

▼支持混合专家模型MoE

MCCL通信库完成了All2All优化，并针对muDNN算子在不同形状下的矩阵运算进行了优化，以更好地支持MoE（Mixture of Experts）大模型的训练。

这不仅提升了智算效率，还为更大规模参数的大模型训练提供了高度可扩展的基础。

▼断点续训

进一步提升了大模型训练的Checkpoint(检查点)读写性能，写入时间小于2秒，显著提高训练效率。

▼优化DeepSpeed

支持DeepSpeed、Ulysses的适配和性能优化，强化了长文本训练支持。

适配国内外多款大模型，在Hugging Face上支持训练和微调主要的开源大模型，创新型企业可以灵活选择不同的大模型开发智能应用。

▼稳定性提升

千卡集群软硬件进一步成熟，实现了连续无故障训练长达15天。

新版本引入了KUAE Aegis可靠性功能，加强了对GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

▼可视化/可观测

引入了PerfSight性能监控系统，可实时显示模型训练过程中的资源消耗与性能分析数据，有助于快速发现并恢复训练期间的故障，满足大模型上的性能调优需求。

▼内置模型库中新增大模型

KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral（MoE 8x7B）等模型。

连续无故障训练15天！摩尔线程发布夸娥智算集群KUAE 1.2-第1张图片-海印网

Article Source：admin