华为发布AI推理创新技术

xinwen.mobi · 发表于 2025-8-13 08:21:32

2025年8月12日，在金融AI推理应用落地与发展论坛上，华为发布了AI推理创新技术UCM（推理记忆数据管理器，Unified Cache Manager）。这是专门面向大模型推理过程的“缓存管理技术”，旨在优化推理速度、效率和成本。相关介绍如下：技术原理：UCM是一款以KV Cache为中心的推理加速套件，融合了多类型缓存加速算法工具。它通过分级管理推理过程中产生的KV Cache记忆数据，扩大推理上下文窗口，以实现高吞吐、低时延的推理体验，降低每Token推理成本。组件构成：UCM包括推理引擎插件（Connector）、功能库（Accelerator）、存取适配器（Adapter）三大组件。通过推理框架、算力、存储三层协同，实现AI推理“更优体验、更低成本”。技术优势：降低首Token时延：依托UCM层级化自适应的全局前缀缓存技术，系统能直接调用KV缓存数据，避免重复计算，使首Token时延最大降低90%。扩展推理上下文窗口：UCM将超长序列Cache分层卸载至外置专业存储，通过算法创新突破模型和资源限制，实现推理上下文窗口10倍级扩展，满足长文本处理需求。提升长序列场景处理能力：UCM具备智能分级缓存能力，可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动，同时融合多种稀疏注意力算法，实现存算深度协同，使长序列场景下TPS（每秒处理token数）提升2-22倍，显著降低每Token推理成本。试点成果：华为携手中国银联率先在金融典型场景开展UCM技术试点应用。在中国银联“客户之声”业务场景下，借助UCM技术及工程化手段，大模型推理速度提升125倍，仅需10秒即可精准识别客户高频问题，促进了服务质量提升。开源计划：华为计划于2025年9月正式开源UCM，届时将在魔擎社区首发，后续逐步贡献给业界主流推理引擎社区，并共享给业内所有Share Everything（共享架构）存储厂商和生态伙伴，以推动AI推理生态的繁荣发展。

		自动登录	找回密码
密码			立即注册

华为发布AI推理创新技术

华为发布AI推理创新技术

相关帖子