/ 新闻

国产AI生态新里程碑:云天励飞DeepEdge10率先完成首个开源项目FlashMLA适配

发布时间:2025-02-27 15:48:35

2月24日,DeepSeek"开源周"正式启动,并发布首个代码库FlashMLA,引发全球关注。

FlashMLA是针对英伟达Hopper GPU优化的高效MLA解码内核,专为可变长度序列优化设计,是DeepSeek高效使用算力的核心程序模块。通过MLA解码优化与分页KV缓存技术,FlashMLA显著提升硬件利用率,加速大语言模型解码过程,有效提高响应速度与吞吐量,适用于各种实时对话生成场景。

云天励飞芯片团队在FlashMLA开源后,迅速完成了DeepEdge10平台与FlashMLA的适配工作。在适配过程中,云天励飞采用了Op fusion tiling、Online softmax、Double buffer、细粒度存算并行等先进技术,并基于自研的Triton-like编程语言快速开发验证了高效的FlashMLA算子。通过一系列优化,不仅显著提升了计算效率,还大幅降低了显存占用,充分展现了DeepEdge10平台“算力积木”芯片架构的卓越优势,以及其与DeepSeek生态的高度契合性。

今日,云天励飞已将相关代码提交至开源平台Gitee,为开源AI贡献了重要的技术力量。

DeepEdge10系列芯片是专门针对大模型时代打造的芯片,支持包括Transformer模型、BEV模型、CV大模型、LLM大模型等各类不同架构的主流模型;基于自主可控的先进国产工艺打造,采用独特的“算力积木”架构,可灵活满足智慧城市、智慧交通、智能制造、智慧仓储、机器人、边缘智算中心等不同场景对算力的需求,为大模型推理提供强大动力。

目前,DeepEdge10芯片平台已成功适配DeepSeek R1系列模型及国产鸿蒙操作系统。未来,云天励飞将持续加大研发力度,推动芯片在国产化领域取得更大突破,为国产AI生态建设贡献更多力量。


免责声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com