首页 > 爱酱资讯 >原生FP8！摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

原生FP8！摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

2025-02-27爱酱手游网

快科技2月26日消息，DeepSeek启动“开源周”以来，已经陆续开源了三个代码库，而作为国产GPU的代表，摩尔线程已经快速完成对FlashMLA、DeepGEMM的适配。

摩尔线程GPU基于全新的MUSA Compute Capability 3.1计算架构，可提供原生的FP8精度计算能力，同时升级了高性能线性代数模板库MUTLASS，快速支持FlashMLA。

不仅如此，摩尔线程还基于MUTLASS，在全新GPU架构上优化实现了FP8矩阵乘法，支持DeepGEMM的相应功能。

FlashMLA是一款高效的MLA推理内核开源仓库，可以加速MLA机制的计算，特别适用于DeepSeek系列模型，包括DeepSeek-V2、V3、R1。

DeepGEMM是一个支持密集矩阵与混合专家（MoE）矩阵乘法的FP8 GEMM库，可以为V3/R1的训练与推理提供强大动力。

这两个重要的开源仓库，都基于高性能通用矩阵乘法（GEMM）的C++模板库进行开发。

摩尔线程基于新一代计算架构MUSA Compute Capability 3.1的全功能GPU，具备全新的Tensor计算引擎及数据搬运引擎，能够提供原生FP8计算能力。

升级的MUTLASS高性能线性代数模板库，支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的优化参考实现，包括基于FlashAttention3思想实现的FlashMLA以及FP8矩阵乘算子，特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。

得益于全新的Tensor计算引擎，FP8计算具有足够高的累加精度，无需额外的二次精度修正，为前沿算法的探索打下了坚实基础。

借助MUTLASS 0.2.0，摩尔线程发布了开源仓库MT-FlashMLA，能够快速对DeepSeek FlashMLA进行兼容部署。

同时，摩尔线程MUTLASS提供了一个全新的参考实现，充分汲取FlashAttention3的先进算法思想，针对摩尔线程GPU设计了全新的计算流水线。

这一设计能够有效掩藏数据搬运的延迟和Softmax计算的开销，充分发挥摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。

▼ MT-FlashMLA开源地址：

https://github.com/MooreThreads/MT-flashMLA

▼ MUTLASS FlashAttention3地址：

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

▼ MUTLASS FP8 GEMM地址：

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站立场。文章及其配图仅供学习分享之

6317

627

上一篇：如何根据三叶草M码与欧洲码的区别选择最合适的鞋子尺码？下一篇：最后一页

相关资讯更多

同类推荐更多

欧美尺码日本尺码如何专线转换？美国尺码的秘密在哪里？

欧美尺码日本尺码如何专线转换？美国尺码的秘密在哪里？

最火的爱酱资讯

2025-01-07

欧美尺码与日本尺码的专线转换在进行欧美尺码与日本尺码的转换时，我们需要明确各自的尺码体系及其特点。欧美尺码通常以英寸为单位，而日本尺码则常常以厘米或公分为基准。以下是二者的专线转换方法。一、了解尺码体系在开始转换之前，我们需要对欧美尺码和日本尺码的体系有基本的了解。欧美尺码通常以S、M、L等字母表示，而日本尺码则是以数字和尺寸（如厘米或公分）来标示。此外，还需注意不同的衣物类别（如裤子、上

新品榜/热门榜

资讯推荐更多