请教大佬们部署chatGLM问题 - chatglm吧

level 3

纯路人🐒💨 楼主

大佬们，在Win10上部署了chatGLM-6b-int4，web_demo能打开，但是却显示不了回复内容是为什么呢？虽然能运行但还是会报错

2023年11月29日 09点11分 1

level 3

纯路人🐒💨 楼主

而且再次提交的话就会connection error

2023年11月29日 09点11分 2

老重庆传奇

[url]https://blog.csdn.net/nfkjdx/article/details/135019173?spm=1001.2014.3001.5502 [/url] 非常详细，可以参考

2024年01月30日 07点01分

level 5

sdwzh99

用cli_demo.py 命令行方式正常，对吧？

2023年11月29日 10点11分 3

纯路人🐒💨

说没有readline库，我pip也安不了，注释掉运行的话我问问题后他会一直复读刷屏，啥情况啊大佬

2023年11月29日 10点11分

纯路人🐒💨

刚刚安装了readline 还是不行，会一直在命令行刷屏复读，也不回答问题 [泪]

2023年11月29日 10点11分

level 3

纯路人🐒💨 楼主

类似这样@sdwzh

99

2023年11月29日 10点11分 5

level 5

sdwzh99

如果web_demo不正常，cli_demo.py正常，那是前端显示的问题，解决办法是卸载高版本gradio，装低版本
但你这个连cli_demo.py都不正常，我就不知道了。

2023年11月29日 10点11分 6

纯路人🐒💨

他会一直这样然后最后说cuda内存不足

2023年11月29日 10点11分

level 1

封情绝恋斩

试一下
>>> from transformers import AutoTokenizer, AutoModel
>>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
>>> model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()
>>> model = model.eval()
>>> response, history = model.chat(tokenizer, "你好", history=[])
>>> print(response)

2023年12月01日 01点12分 7

纯路人🐒💨

能跑了，清华云盘的模型老了，下了个新的解决了

2023年12月01日 06点12分