GLM-4.7-Flash 量化版本地部署，1 张 4090 开跑

Ai学习的老章

发布于 2026-02-03 17:46:40

4720

大家好，我是 Ai 学习的老章

上周 GLM-4.7-Flash 开源：GLM-4.7-Flash 登场，30B 级别最强模型，轻量部署新选择，性能与效率双丰收，这个参数级别的模型，确实非常诱人。尤其是量化之后，2 张 4090 就能跑：GLM-4.7-Flash 量化版来了

文章迟迟未出，一是部署过程确实踩了很多坑，二是最近新模型、新工具来的太多了：Ollama 更新命令、Qwen3-Max-Thinking、DeepSeek-OCR 2、Kimi K2.5、Clawdbot、Qwen3-TTS 、智谱 ASR-Nano等等，我都有些文章介绍。

本文就介绍一下 GLM-4.7-Flash 本地部署完整过程，帮大家少踩点坑

1、下载模型

我选择的是这个 AWQ-4bit 量化版，原因 1 是它支持 vLLM 部署，原因 2 是它真的很小巧，把原版 58GB 压到了 17GB，原因 3 是压缩至此情况下，幻觉没有显著增加

modelscope download --model cyankiwi/GLM-4.7-Flash-AWQ-4bit

https://modelscope.cn/models/cyankiwi/GLM-4.7-Flash-AWQ-4bit/files

2、升级 vLLM@nightly

先声明：我没有选择此方法，但是官方教程提到了，大家可以试试

我遇到的问题是各种依赖相互干扰，烦死了。还有系统基础环境太差，又不敢升级，昨天DeepSeek-OCR-2 本地部署，实测一文中我有提到。

pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly 
pip install git+https://github.com/huggingface/transformers.git

CUDA 的升级，这里不赘述了，之前无比详细介绍过：【教程】DeepSeek-OCR 本地部署（上）：CUDA 升级 12.9，vLLM 升级至最新稳定版

vLLM 巨大里程碑一文中提到 vLLM 官网上线（https://vllm.ai/），这里面有个极友好的交互式 vLLM 安装选择器（GPU、CPU 等）

我选择的方式是 vLLM-Docker

https://hub.docker.com/r/vllm/vllm-openai/tags很简单，直接 docker pull vllm/vllm-openai:nightly 拉取镜像

这时还不行，因为即便是 nightly 版本，官方也没有支持 transformers 5.x

这里有个骚操作

新建一个 Dockfile

FROM vllm/vllm-openai:nightly
RUN pip install transformers>=5.0.0rc2

然后自行打包 glm-4.7 专用镜像

docker build -t glm-4.7-custom .

新镜像就是 glm-4.7-custom，后面用它拉起模型，至此 vLLM 升级完成

3、启动模型

vllm 直接启动，我没有尝试

CUDA_VISIBLE_DEVICE=0，1 vllm server --model /data/models/GLM-4.7-Flash-AWQ-4bit \
 --tensor-parallel-size 2 \
     --tool-call-parser glm47 \
     --reasoning-parser glm45 \
     --enable-auto-tool-choice \
     --served-model-name glm-4.7-flash

我的 docker 启动脚本如下，1张卡就能跑起来，这里我用了2张

默认 max-model-len 直接报 OOM，降到 10240，然后 max_num_seqs 设 10 才跑起来

docker run --rm --runtime=nvidia --gpus '"device=0,1"' --name GLM-4.7-Flash -p 3004:8000
 -p 5005:8000 -v /data/models/GLM-4.7-Flash-AWQ-4bit:models
  glm-4.7-custom 
     --model /models/GLM-4.7-Flash-AWQ-4bit \
     --tensor-parallel-size 2 \
     --tool-call-parser glm47 \
     --reasoning-parser glm45 \
     --enable-auto-tool-choice \
     --served-model-name glm-4.7-flash \
     --max-model-len 10240 \
     --max_num_seqs 10 \
     --host 0.0.0.0 \
     --port 8000