光合开发者社区-论坛

Qwen3.5 K100-AI使用问题

2026-03-25 22:49:09

用2块K100卡按照官方文档部署了千问3.5-35B-A3B和千问3.5-27B，发现如下问题： 1. 响应慢（首字响应慢，推理速度慢）千问3.5-27B单条速度只有10 tokens/s。 2. 加--reasoning-parser=qwen3后，没有效果，疑似和vllm适配版本太低有关（vllm官方0.17.0才正式适配千问3.5，0.17.1还修复了千问3.5的bug；而光源提供的镜像还是0.15 的镜像）还请开发者尽快优化

ANYA

5楼

老师您好如果您当前使用的加速卡型号为K100，其支持的vllm版本最高为085，您可以换用该版本的镜像尝试，例如：docker pull image.sourcefind.cn:5000/dcu/admin/base/vllm:0.8.5-ubuntu22.04-dtk25.04.1-rc5-das1.6-py3.10-20250724

2025/12/20

sdfkjk

回复 @ANYA

请问z100l可以用085的vllm推理qwen3吗

2025/12/29

土

土土

回复 @sdfkjk

你好你找到z100l能用的vllm镜像了吗

2025/12/30

Hikafeng

4楼

你的模型文件是是不是没下全还有你物理机操作系统是什么 docker 版本是多少

2025/12/15

回复 @Hikafeng

已经查明了是K100只支持vllm0.5.0

2025/12/16

回复 @Hikafeng

操作系统：OpenEuler 22.03 docker28.5

2025/12/16

楼主

3楼

services: qwen3-32b-tool: image: image.sourcefind.cn:5000/dcu/admin/base/vllm:0.9.2-ubuntu22.04-dtk25.04.2-das1.7-py3.10-20251203 container_name: qwen3-32b-tool privileged: true devices: - /dev/kfd - /dev/dri - /dev/mkfd group_add: - video cap_add: - SYS_PTRACE security_opt: - seccomp:unconfined environment: - HIP_VISIBLE_DEVICES=0,1 - VLLM_WORKER_MULTIPROC_METHOD=spawn - OMP_NUM_THREADS=16 # - VLLM_USE_TRITON_FLASH_ATTN=True # - VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 volumes: - my-pip-cache:/root/.cache/pip - /ssddata/aimodel:/ssddata/aimodel - /opt/hyhal:/opt/hyhal:ro #- /HB/models/tool-call-parser:/HB/models/tool-call-parser # - /HB/models/dist-packages/vllm:/usr/local/lib/python3.10/dist-packages/vllm shm_size: '64g' # 共享内存调大 api-key sk-Wp1****************KjUpPZD86 \ # command: bash # tty: true # stdin_open: true command: bash -c "export ALLREDUCE_STREAM_WITH_COMPUTE=1 && \ export VLLM_NUMA_BIND=1 && \ export VLLM_RANK0_NUMA=0 && \ export VLLM_RANK1_NUMA=1 && \ export VLLM_RANK2_NUMA=2 && \ export VLLM_RANK3_NUMA=3 && \ vllm serve /ssddata/aimodel/Qwen3-8B \ --served-model-name Qwen3-8B \ --host 0.0.0.0 \ --port 8000 \ --max-model-len 32768 \ --reasoning-parser qwen3 \ --gpu-memory-utilization 0.95 \ --tool-call-parser hermes \ --enforce-eager \ --enable-auto-tool-choice \ --max-num-batched-tokens 32768 \ --tensor-parallel-size 2 \ --trust-remote-code" ports: - "8000:8000" networks: - vllm ulimits: nproc: 65535 nofile: soft: 65535 hard: 65535 volumes: my-pip-cache: networks: vllm: external: true

2025/12/15

Hikafeng

2楼

可以参考这个 git 仓库 https://github.com/hikafeng/dcu-vllm.git

2025/12/15

回复 @Hikafeng

感谢但还是有问题，报ERROR 12-15 11:27:58 [engine.py:476] IndexError: max(): Expected reduction dim 2 to have non-zero size. Process SpawnProcess-1: ERROR 12-15 11:27:59 [multiproc_worker_utils.py:121] Worker VllmWorkerProcess pid 210 died, exit code: -15

2025/12/15

楼主

1楼

Worker failed with error 'HIP error: invalid device function

2025/12/14

Hikafeng

回复 @ZY

HIP_VISIBLE_DEVICES=0,1,2,3 类似这样后面是dcu设备id

2025/12/14

Hikafeng

回复 @ZY

缺少环境变量设置

2025/12/14

Hikafeng

回复 @ZY

可能还缺少其他设置不过我一眼看出来缺少这个环境变量

2025/12/14

全部4条回复