V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  lwch  ›  全部回复第 1 页 / 共 7 页
回复总数  136
1  2  3  4  5  6  7  
@allegory 我用他来实现了一个小型的 llama 模型大约 1.5 亿参数量在 CPU 上训练速度还行
@allegory libtorch 跟着 pytorch 的版本走的,现在已经 2.2.2 了
2023-10-21 09:02:57 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@rekulas 如果内存足够大的话可以增加--cache 和--fp32 缓存参数,每次加载参数速度很慢
2023-10-20 23:25:40 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@rekulas 只实现模型推理的话其实并不复杂,要实现整个深度学习框架就非常麻烦。每个 tensor 的正向传播、反向传播、梯度计算等,我实现了一个 https://github.com/lwch/gotorch 库包装了 libtorch 库里面已经实现了上百个算子,这还只是 pytorch 中的一部分,想要实现一个完整的框架一个人难以完成。
2023-10-19 14:54:33 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@kneo 今天做了不少优化,目前 7B 模型单机运行已经可降低到 1.2~1.6s/token ,但 CPU 并未全部跑满可能还有一定的优化空间
2023-10-19 10:14:47 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@kneo 所以我上面也说了,单机的性能是有限的,想要提升整体性能只能靠堆集群来实现,目前为止这个项目还处于单机运行状态,至于说具体以哪种方式来做并行计算这个是需要实际测试的。我认为 go 语言天生就是高并发高吞吐量的代名词,因此我一开始就选用了 go 语言而不是其他的语言来进行开发,就 go 语言本身而言从单机版到集群版也更容易一些。

另如果 10 台机器的集群计算性能可以达到 GPU 的一半,我觉得大部分的资本家也是可以接受的,毕竟总体成本下降了好几个数量级。
2023-10-19 08:44:55 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@kneo 那再举个例子谷歌搜索核心代码也是 go 的,你觉得以他的体量计算量会很小吗,速度不是一样不慢的
2023-10-18 20:13:15 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@kneo 再慢也能超过 python 不是吗
2023-10-18 14:55:55 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@GeekGao 树莓派只是打个比方,你当然可以在云上申请几台机器来加快推理速度,这个项目的主要目标还是为了降低大模型的使用成本,使普通人也可以跑上 70B 模型
2023-10-18 12:07:26 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@GeekGao 用这 1.6T 内存在高并发情况下,可以并行处理更多的 batch
2023-10-18 12:05:46 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@GeekGao 你可以这么计算,载入 70B 模型需要 130G 显存,按 4090 的 24G 显存计算,载入整个模型需要至少 7 张卡,换算成成本就是 14W+,这些钱总共可以买 200 多个树莓派,每个 8G 内存总共 1.6T 以上,如果组起集群的话计算效率并不会比 4090 慢多少
2023-10-18 11:41:22 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@duojiao 哈哈,不要关心速度,做了参数延迟加载后可在低内存设备上运行可大大降低运行成本,速度只能靠堆集群和做各种各样的缓存来提升
2023-10-17 18:34:09 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@bt7vip 不能这么算,网络传输需要耗时,实际做集群计算有可能会比单机更慢,这个需要测试了才知道
2023-10-17 17:03:48 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@skinfiter 哈哈,看来这些嵌入式设备上面还得做量化,不过未来可以搞一个树莓派集群来做分布式计算
2023-10-17 16:03:11 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@graetdk 我在 i7-10710U 的 NUC 上用 8 个核心跑 7B 模型不缓存参数大概 1 分多才能出一个 token ,缓存后 16~17s 左右一个 token
2023-02-13 10:11:10 +08:00
回复了 catfly 创建的主题 程序员 新 bing 你们有预约成功的吗?
还在等待列表,不知道是不是因为 gmail 账号的缘故
2022-12-30 11:01:04 +08:00
回复了 Cyshall 创建的主题 Windows wsl2 内存问题
限了好像也没啥用,虚拟内存一直跑满,我用了 mem reduct 超额后自动释放
2022-12-30 10:25:46 +08:00
回复了 Frankcox 创建的主题 Go 编程语言 Go+Vue.js 如何较好的实现 Web 下载大文件?
你可以尝试使用 http.ServeFile 接口来返回文件内容,这个接口中已正确的处理了 Content-Type 和 Content-Length 字段
2022-12-30 10:19:37 +08:00
回复了 Frankcox 创建的主题 Go 编程语言 Go+Vue.js 如何较好的实现 Web 下载大文件?
需要先获取文件大小后通过 Content-Length 返回给客户端,客户端才能计算出进度
2022-12-29 18:36:00 +08:00
回复了 dwlovelife 创建的主题 生活 大家新冠好了会一直咳么
白天基本上不怎么咳,晚上咳的比较厉害可能跟气温有关
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1130 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 18:36 · PVG 02:36 · LAX 10:36 · JFK 13:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.