
IT 之家 2 月 4 日音书,腾讯混元 AI Infra 团队当天晓谕推出开源坐褥级高性能 LLM 推理核默算子库 HPC-Ops。
该算子库声称基于坐褥环境痛点,接收 CUDA 和 CuTe 从零构建,通过轮廓化工程架构、微架构深度适配及教唆级极致优化等,镌汰底层算子树立门槛,将核默算子性能贴近硬件峰值,已毕了性能糟塌。

▲ HPC-Ops 算子库架构图
在着实场景下,基于 HPC-Ops,混元模子推理 QPM 栽植 30%,DeepSeek 模子 QPM 栽植 17%。同期,在单算子性能方面,HPC-Ops 已毕 Attention 比拟 FlashInfer / FlashAttention 最高栽植 2.22 倍;GroupGEMM 比拟 DeepGEMM 最高栽植 1.88 倍;FusedMoE 比拟 TensorRT-LLM 最高栽植 1.49 倍。
在改日的发展蓄意中,HPC-Ops 将握续深耕大模子推感性能的糟塌处所:
一方面,将重心研发疏淡 Attention 算子,针对性处治长落魄文大模子的内存与算力瓶颈;
另一方面,会拓展更丰富的量化计谋,狡饰 4bit/8bit 羼杂精度等更巨额化决策,进一步均衡推理速率与模子精度;
此外,算子库还将布局计较 - 通讯协同优化的内核,通过会通多 GPU 间的计较逻辑与通讯经由,大幅镌汰漫衍式推理场景下的通讯支出,为超大界限大模子的高效部署提供底层撑握。
IT 之家附 HPC-Ops 开源地址如下:天元证券官网 - 在线股票杠杆配资 - 新手炒股如何配资杠杆
天元证券官网 - 在线股票杠杆配资 - 新手炒股如何配资杠杆提示:本文来自互联网,不代表本网站观点。