PowerInfer：让普通电脑也能跑大语言模型由上海交通大学开发，目的是在配备消费级GPU的个人电脑上提供高速的大语言模型推理服务。PowerInfer 无缝整合了 CPU 和 GPU 的内存和计算能力，优化了内存和计算资源，从而在个人电脑上高效地运行复杂的 AI 模型。比llama.cpp快11倍...…

发布时间: 2023-12-21 10:40:24

1分

数据加载中

关注推特

收听电报

2

1

0

PowerInfer：让普通电脑也能跑大语言模型
由上海交通大学开发，目的是在配备消费级GPU的个人电脑上提供高速的大语言模型推理服务。
PowerInfer 无缝整合了 CPU 和 GPU 的内存和计算能力，优化了内存和计算资源，从而在个人电脑上高效地运行复杂的 AI 模型。
比llama.cpp快11倍...…
IT技术
( twitter.com )

1年前由小互提交

PowerInfer：让普通电脑也能跑大语言模型

由上海交通大学开发，目的是在配备消费级GPU的个人电脑上提供高速的大语言模型推理服务。

PowerInfer 无缝整合了 CPU 和 GPU 的内存和计算能力，优化了内存和计算资源，从而在个人电脑上高效地运行复杂的 AI 模型。

比llama.cpp快11倍...

它支持多种不同的大型语言模型！

在测试中，PowerInfer在单个 NVIDIA RTX 4090 GPU 上达到了平均每秒生成 13.20 个令牌的速率，峰值可达 29.08 个令牌。接近顶级服务器级 GPU 的性能。

PowerInfer 对比llama.cpp 在运行 Falcon(ReLU)-40B-FP16 的单个 RTX 4090(24G) 上实现 11 倍加速！

其主要工作原理：

通过智能地分配和优化计算任务在 CPU 和 GPU 之间的处理，以及利用大型语言模型中的局部性特征，从而在个人电脑上高效地运行复杂的 AI 模型。这种方法使得即使是不具备高端服务器硬件的用户也能体验到高速的 AI 模型推理性能。

激活局部性利用：PowerInfer 利用了大语言模型推理中的高局部性。大语言模型在各种输入中，只有一小部分神经元（称为“热神经元”）持续激活，而大多数神经元（“冷神经元”）则根据特定输入变化。

GPU-CPU 混合推理：为了提高效率，PowerInfer 预先将热神经元加载到 GPU 上，以实现快速访问。这减少了 GPU 的内存需求。同时，它在 CPU 上计算冷神经元的激活，减少了 CPU 和 GPU 之间的数据传输。

GitHub：https://t.co/A4bNs7YO6m
论文：https://t.co/nsHTIHhOfn

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

让 AI 模型"轻装上阵"：Ollama 新功能让内存消耗大幅降低
「通过一项新技术实现了显著降低 AI 模型运行内存需求的突破，让普通电脑也能运行更大、更强大的 AI 模型，同时基本不影响模型的输出质量」
核心功能与意义：
- K/V 上下文缓存量化可以显著减少 VRAM (显存)使用量
- 使用 Q8_0
时政
( twitter.com)

1个月前 • meng shao • -- 点击 0 评论

2

2

1

1

很多同学本金不足+没有电脑，
那zhaozhao后续周更新内容的主题变成：
【使用手机+ OKX Web3钱包+1000Cny（150Usd）的启动资金，能否跑赢普通人脚踏实地辛苦打工？】

这一期主题大概是更新6-8个月左右。
币圈
( twitter.com)

1年前 • 0xzhaozhao • -- 点击 0 评论

3

3

2

2

「睡好觉，才能加速大脑“排毒”神经元会助你高效清除废物」
在最新一期的《自然》杂志上，圣路易斯华盛顿大学的Jonathan Kipnis教授团队发现，睡觉时不仅血管会助力清洗工作，神经元也会通过释放电脉冲来帮忙，让脑脊液能更容易通过复杂的大脑结构和组织，加速代谢废物的排出。…
时政
( twitter.com)

9个月前 • Dr.Wang • -- 点击 0 评论

4

3

2

2

3月30日，中国民用航空学院通知，每间宿舍只能留两台电脑（包括平板电脑）。
时政
( twitter.com)

9个月前 • 李老师不是你老师 • -- 点击 0 评论

5

4

3

3

3月30日，中国民用航空飞行学院通知，每间宿舍只能留两台电脑（包括平板电脑）。
时政
( twitter.com)

9个月前 • 李老师不是你老师 • -- 点击 0 评论

6

2

1

1

中国大使馆能打通电话，也挺厉害的。
时政
( twitter.com)

1年前 • iPaul🇨🇦🇺🇦 • -- 点击 0 评论

7

2

1

1

加拿大的科学家发现，爱因斯坦的大脑在整体大小和重量上都是正常的；但他大脑的顶叶区域，即与数学推理有关的区域比普通人宽 15%。

此外，他的大脑两个半球之间的间隙（脑沟）并没有像普通人那样一直延伸，因而可以让更多的神经元更容易地协同工作。

[来源：]
有趣
( www.cbc.ca)

1年前 • 环球猎奇🏅 • -- 点击 0 评论

8

2

1

1

中共把电影视为意识形态的重要组成部分，根本不可能让电影工作者有任何喘息机会，绳索只会越拉越紧，反正再脑残的电影在中国也能上映，大不了就靠几个样板戏也能玩上十年八年。
时政
( twitter.com)

6个月前 • 蔡慎坤 • -- 点击 0 评论

9

3

2

2

汽车是中国普通人能接触到最现代的钢铁工具，它能让脑子里还装着满清思维、恃强凌弱的基层干部，焕然一新🤣🤣🤣
时政
( twitter.com)

1个月前 • 勃勃OC • -- 点击 • 下载视频 0 评论

00:00:25

0.23603 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特