华为正式开源UCM技术：最大提升22倍 AI推理性能跃升

抖音秀热点资讯 2025-11-06 15:00:46 48

近日，华为宣布针对AI推理加速的关键技术——UCM（Unified Cache Manager）推理记忆数据管理正式开源。

UCM以KV Cache多级缓存和推理记忆管理为中心，通过推理框架、算力、存储的三层协同，破解长序列推理效率低、成本高的难题，为企业提供更优的AI推理体验。

据介绍，UCM融合了多类型缓存加速算法工具，可分级管理在推理过程中产生的KV Cache记忆数据。

UCM具备四大关键能力：稀疏注意力、前缀缓存、预填充卸载、异构PD解耦。

它实现首Token时延最高降低90%，系统吞吐最大提升22倍，并达到10倍级上下文窗口扩展，显著提升了AI推理性能。

目前，UCM已在ModelEngine社区开放基础框架与工具链，开发者可通过社区获取UCM源代码与技术文档。

本文地址： http://douyinshow.com/698885.html

文章来源：快科技

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至23467321@qq.com举报，一经查实，本站将立刻删除;如已特别标注为本站原创文章的，转载时请以链接形式注明文章出处，谢谢！

上一篇中国科学家破解140年难题：动辄百万起抗癌药成本有望断崖下降！

下一篇支付宝：要你账号密码、视频付款、刷单的都是诈骗