4060跑glm - chatglm吧

level 1

小碗碗🍒 楼主

为什么我的4060 8g显存。16g内存。显卡占有率满了跑glm3量化4还是很慢啊。十秒一个字的样子 [泪]

2024年05月15日 17点05分 1

level 1

小碗碗🍒 楼主

我懂了。我量化没成功。共享gpu和专用gpu一共16g，所以没量化就没报错。改好之后就是占用5g显存了。这下一秒七八个字的速度真舒服 [吐舌]

2024年05月16日 03点05分 2

求助lz，我也是4060，怎么去量化呀？

2024年05月30日 05点05分

@北辰五气星君你要把chatglm3-6b（模型文件）里面的quantization.py换成从魔塔社区下载的，hugface下载的不能用会报错。

2024年05月31日 03点05分

@小碗碗🍒 然后改cli_demo.py里的代码，图片我发下面了

2024年05月31日 03点05分

level 1

小碗碗🍒 楼主

2024年05月31日 03点05分 3

level 2

想知道楼主用的是chatglm36bint4吗，为什么我一直找不到资源

2026年02月02日 16点02分 4

是下载的原先的模型，每次打开量化一下，不是下载的量化后模型。应该是这样，太久远记不太清了

2026年02月04日 14点02分

回复小碗碗🍒 :为什么我试了好多种量化当时都会报错啊，还有楼主说的cli_demo，我为什么根本就没有这个文件，我也是从魔搭下载的

2026年02月04日 15点02分