標題:
[手機情報]
HUAWEI 全新壓縮 RAM 算法,AI 大模型可節省 70% RAM
[打印本頁]
作者:
sun7005
時間:
4 天前 12:28 AM
標題:
HUAWEI 全新壓縮 RAM 算法,AI 大模型可節省 70% RAM
近期,華為AI算法團隊表示在人工智能領域取得顯著突破,研究併發表一種創新的大模型 KV Cache 壓縮算法,稱為「RazorAttention」。
www2.tvboxnow.com: K. K& u3 e" l& m. W
5 J: y t7 ~1 I! l- B' }TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。
TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。) m$ q8 n( |+ X( ^( m
公仔箱論壇2 I7 A3 P G j
新算法具有卓越的性能表現,可以有效節省高達 70%的大模型推理 RAM 佔用,AI 大模型提供更多的空間,提供強有力的支援。
- a4 w) b- ?3 @+ ztvb now,tvbnow,bttvb
目前相關論文《RazorAttention: Efficient KV Cache Compression Through Retrieval Heads》已被深度學習領域國際頂級會議 ICLR 2025 收錄,可見其重要性。
2 A) c' j& M1 y) P9 q' O2 d5 b) awww2.tvboxnow.com
華為表示,RazorAttention 是業界首個基於 Attention 可解釋性的離線靜態 KV Cache 壓縮算法,打破一直以來 AI 大模型長序列 KV Cache 壓縮不理想的硬傷,減少設備負擔,提高計算速度。
; o. j* W( e! d- F* T
RazorAttention 是通過檢索頭的設定,保證上下文中重要且主要的信息保留,且在保持高精度(誤差小於1%)的前提下,實現靜態有效壓縮最大70% 的 KV Cache RAM 佔用,大大減少 AI 大模型推理的成本。
www2.tvboxnow.com0 C0 `+ F- \7 C3 F+ ^" n9 t" K
值得一提的是,目前 RazorAttention 算法已實現產品化,並集成在昇騰 MindIE/MindStudio,支援主流 8K~1M 長序列 KV Cache 壓縮,在 32K 以上場景增量吞吐提升20%+。
歡迎光臨 公仔箱論壇 (http://www2.tvboxnow.com/)
Powered by Discuz! 7.0.0