
大家好,我是 Ai 学习的老章
上周 GLM-4.7-Flash 开源:GLM-4.7-Flash 登场,30B 级别最强模型,轻量部署新选择,性能与效率双丰收,这个参数级别的模型,确实非常诱人。尤其是量化之后,2 张 4090 就能跑:GLM-4.7-Flash 量化版来了
文章迟迟未出,一是部署过程确实踩了很多坑,二是最近新模型、新工具来的太多了:Ollama 更新命令、Qwen3-Max-Thinking、DeepSeek-OCR 2、Kimi K2.5、Clawdbot、Qwen3-TTS 、智谱 ASR-Nano等等,我都有些文章介绍。
本文就介绍一下 GLM-4.7-Flash 本地部署完整过程,帮大家少踩点坑
我选择的是这个 AWQ-4bit 量化版,原因 1 是它支持 vLLM 部署,原因 2 是它真的很小巧,把原版 58GB 压到了 17GB,原因 3 是压缩至此情况下,幻觉没有显著增加
modelscope download --model cyankiwi/GLM-4.7-Flash-AWQ-4bit

https://modelscope.cn/models/cyankiwi/GLM-4.7-Flash-AWQ-4bit/files
先声明:我没有选择此方法,但是官方教程提到了,大家可以试试
我遇到的问题是各种依赖相互干扰,烦死了。还有系统基础环境太差,又不敢升级,昨天DeepSeek-OCR-2 本地部署,实测一文中我有提到。
pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly
pip install git+https://github.com/huggingface/transformers.git
CUDA 的升级,这里不赘述了,之前无比详细介绍过:【教程】DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版
vLLM 巨大里程碑 一文中提到 vLLM 官网上线(https://vllm.ai/),这里面有个极友好的交互式 vLLM 安装选择器(GPU、CPU 等)

我选择的方式是 vLLM-Docker

https://hub.docker.com/r/vllm/vllm-openai/tags很简单,直接 docker pull vllm/vllm-openai:nightly 拉取镜像
这时还不行,因为即便是 nightly 版本,官方也没有支持 transformers 5.x
这里有个骚操作
新建一个 Dockfile
FROM vllm/vllm-openai:nightly
RUN pip install transformers>=5.0.0rc2
然后自行打包 glm-4.7 专用镜像
docker build -t glm-4.7-custom .
新镜像就是 glm-4.7-custom,后面用它拉起模型,至此 vLLM 升级完成
vllm 直接启动,我没有尝试
CUDA_VISIBLE_DEVICE=0,1 vllm server --model /data/models/GLM-4.7-Flash-AWQ-4bit \
--tensor-parallel-size 2 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.7-flash
我的 docker 启动脚本如下,1张卡就能跑起来,这里我用了2张
默认 max-model-len 直接报 OOM,降到 10240,然后 max_num_seqs 设 10 才跑起来
docker run --rm --runtime=nvidia --gpus '"device=0,1"' --name GLM-4.7-Flash -p 3004:8000
-p 5005:8000 -v /data/models/GLM-4.7-Flash-AWQ-4bit:models
glm-4.7-custom
--model /models/GLM-4.7-Flash-AWQ-4bit \
--tensor-parallel-size 2 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.7-flash \
--max-model-len 10240 \
--max_num_seqs 10 \
--host 0.0.0.0 \
--port 8000

运行没问题,我把它接入了 OpenwebUI

使用感受,思考太墨迹了,甚至超过 30s 的思考有点不习惯
生成速度倒是很不错

显存占用如下:

这个级别的模型解决点内网疑难杂症,甚至写点代码还是很不错的
不过大家想不到吧,我内网还在用着 DeepSeek-R1-0528-Qwen3-8B(之前有介绍),时常给我惊喜
比如下面问题,它比 GLM 4.7 Flash 还靠谱,还只需要一张卡就能跑,思考极快。现在的大模型,哪有赢家通吃,各有千秋,没必要大炮打蚊子。就算是一张厕纸,一条底裤也有它本身的用处,更何况大模型乎。

如果在使用 GLM 4.7 Flash 时遇到循环或重复问题,可以尝试添加 --temp 1.0 --min-p 0.01 --top-p 0.95 --dry-multiplier 1.1
我没遇到
