2月24日,DeepSeek启动了“开源周”,并开源了首个代码库FlashMLA。该代码库是针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列设计,现已投入生产使用。在H800 GPU上,FlashMLA能实现3000 GB/s的内存带宽和580 TFLOPS的计算性能。
简单来说,FlashMLA是一种优化方案,使大语言模型在H800这样的GPU上运行得更快、更高效,特别适用于高性能AI任务。这一代码能够加速大语言模型的解码过程,提高模型的响应速度和吞吐量,对于实时生成任务(如聊天机器人、文本生成等)尤为重要。
MLA(多层注意力机制)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列时的效率和性能。通过多个头的并行计算,MLA让模型能够同时关注文本中不同位置和不同语义层面的信息,从而更全面、更深入地捕捉长距离依赖关系和复杂语义结构。
此前,有从业者解析DeepSeek架构时提到,MLA的本质是对KV(Key-Value缓存机制)的有损压缩,提高了存储信息的效率。这项技术首次在DeepSeek-V2中引入,目前是开源模型中显著减小KV缓存大小的最佳方法之一。
DeepSeek表示,FlashMLA就像给AI推理引擎装上了一台“涡轮增压器”,使大模型在处理复杂任务时更快、更省资源,并降低了技术门槛。FlashMLA的意义不仅在于技术优化,更是打破算力垄断、加速AI普及的关键一步。
具体来说,FlashMLA可以突破GPU算力瓶颈,降低成本。传统解码方法在处理不同长度的序列时,GPU的并行计算能力会被浪费,而FlashMLA通过动态调度和内存优化,使Hopper GPU(如H100)的算力得到充分利用,相同硬件下吞吐量显著提升。这意味着企业可以用更少的GPU服务器完成同样的任务,直接降低推理成本。