类ChatGPT新玩具要来了，50hx会迎来春天吗？ - p106吧

level 7

pwstudio 楼主

清华开源的，类ChatGPT模型——ChatGLM来啦，最小的模型只有60亿参数，据说模型执行INT4量化以后6G显存都能跑（表示怀疑，估计8G起步）。由于量化以后主要用整数算力，不知道没有阉割整数算力的50hx能不能正常推理，如果能，那到是发挥第二春的机会。

2023年03月15日 16点03分 1

level 11

雪花飘飘雪月花

glm看起来不太行啊，上下文这方面 [滑稽]

2023年03月15日 23点03分 2

level 7

pwstudio 楼主

虽然现在GLM不一定行，但是未来就可能出现几十亿参数级别的，满足阿宅日常需要的模型了。

2023年03月16日 00点03分 3

xjqzzzzzzzz

。。。我有理由相信你是来卧底的 [阴险]

但是你这么说了我必须得买一张50hx试试，只是单纯的想证明你说的是不是真的 [怒]

2023年03月18日 12点03分

pwstudio

回复 xjqzzzzzzzz :看最后一楼，50hx现阶段跑ChatGLM不行。不过作为正经的炼丹师，我会尽可能搞清楚量化模型能否更多依靠整数运算。

2023年03月18日 15点03分

level 3

幻の永恒

int4理论占用只有fp32的1/8，fp16的1/4，60亿参数换算过来只有不到3g，并非不可能

2023年03月16日 01点03分 5

level 7

pwstudio 楼主

在公司的A40上测试了FP16和INT8量化版本ChatGLM-6B，FP16模型对话后占用14.36G，INT8多轮任务后稳定在8.72GB。晚上回家试试P40如何，不担心显存，主要是担心P40速度不行。

2023年03月16日 05点03分 8

pwstudio

@yzx123x 发了，不量化，当作写作工具，速度勉强能接受。

2023年03月16日 15点03分

yzx123x

蹲一下，有结果麻烦分享下

2023年03月16日 06点03分

yzx123x

@pwstudio 谢谢，最近想入深度学习在选显卡 [吐舌]

2023年03月16日 17点03分

凌麟龙_CMee

建议使用alpaca，应该会好很多

2023年03月20日 13点03分

level 1

学术院院长

参数太小能力会非常受限没什么意义

2023年03月16日 07点03分 9

level 7

pwstudio 楼主

图中，上方是P40加载未量化的FP16模型的耗时，下方是P40加载INT8量化的模型的耗时，启动耗时包含了一次预热。问了同一个续写故事问题，
量化以后无论是启动速度（实时量化加载）还是问答速度都实在太慢，要等待1分多钟...
实际上量化以后，A40上面启动速度和问答速度也好不到哪里去，同样问题要50秒。

2023年03月16日 15点03分 10

yzx123x

p40不是不支持int8吗

2023年03月17日 00点03分

pwstudio

回复 yzx123x :INT8是，所有卡都支持整数，只是不支持半精度直接计算，但是可以存储在显存里啊，而且还能转换后计算。

2023年03月17日 01点03分