PowerInfer:让普通电脑也能跑大语言模型
由上海交通大学开发,目的是在配备消费级GPU的个人电脑上提供高速的大语言模型推理服务。
PowerInfer 无缝整合了 CPU 和 GPU 的内存和计算能力,优化了内存和计算资源,从而在个人电脑上高效地运行复杂的 AI 模型。
比llama.cpp快11倍...
它支持多种不同的大型语言模型!
在测试中,PowerInfer在单个 NVIDIA RTX 4090 GPU 上达到了平均每秒生成 13.20 个令牌的速率,峰值可达 29.08 个令牌。接近顶级服务器级 GPU 的性能。
PowerInfer 对比llama.cpp 在运行 Falcon(ReLU)-40B-FP16 的单个 RTX 4090(24G) 上实现 11 倍加速!
其主要工作原理:
通过智能地分配和优化计算任务在 CPU 和 GPU 之间的处理,以及利用大型语言模型中的局部性特征,从而在个人电脑上高效地运行复杂的 AI 模型。这种方法使得即使是不具备高端服务器硬件的用户也能体验到高速的 AI 模型推理性能。
激活局部性利用:PowerInfer 利用了大语言模型推理中的高局部性。大语言模型在各种输入中,只有一小部分神经元(称为“热神经元”)持续激活,而大多数神经元(“冷神经元”)则根据特定输入变化。
GPU-CPU 混合推理:为了提高效率,PowerInfer 预先将热神经元加载到 GPU 上,以实现快速访问。这减少了 GPU 的内存需求。同时,它在 CPU 上计算冷神经元的激活,减少了 CPU 和 GPU 之间的数据传输。
GitHub:https://t.co/A4bNs7YO6m
论文:https://t.co/nsHTIHhOfn