2025年8月12日,在金融AI推理应用落地与发展论坛上,华为发布了AI推理创新技术UCM(推理记忆数据管理器,Unified Cache Manager)。这是专门面向大模型推理过程的“缓存管理技术”,旨在优化推理速度、效率和成本。相关介绍如下:技术原理:UCM是一款以KV Cache为中心的推理加速套件,融合了多类型缓存加速算法工具。它通过分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。组件构成:UCM包括推理引擎插件(Connector)、功能库(Accelerator)、存取适配器(Adapter)三大组件。通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。技术优势: 降低首Token时延:依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。 扩展推理上下文窗口:UCM将超长序列Cache分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现推理上下文窗口10倍级扩展,满足长文本处理需求。 提升长序列场景处理能力:UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,显著降低每Token推理成本。试点成果:华为携手中国银联率先在金融典型场景开展UCM技术试点应用。在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进了服务质量提升。开源计划:华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴,以推动AI推理生态的繁荣发展。
|
|