0
0
0
0
Qwen3.5 K100-AI使用问题
2026-03-25 22:49:09
2
操作
用2块K100卡按照官方文档部署了千问3.5-35B-A3B和千问3.5-27B,发现如下问题: 1. 响应慢(首字响应慢,推理速度慢)千问3.5-27B单条速度只有10 tokens/s。 2. 加--reasoning-parser=qwen3后,没有效果,疑似和vllm适配版本太低有关(vllm官方0.17.0才正式适配千问3.5,0.17.1还修复了千问3.5的bug;而光源提供的镜像还是0.15 的镜像) 还请开发者尽快优化
全部评论(0)
只看楼主
A
A
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
ANYA
只看此人
5楼
老师您好如果您当前使用的加速卡型号为K100,其支持的vllm版本最高为085,您可以换用该版本的镜像尝试,例如:docker pull image.sourcefind.cn:5000/dcu/admin/base/vllm:0.8.5-ubuntu22.04-dtk25.04.1-rc5-das1.6-py3.10-20250724
2025/12/20
赞
回复
@圈友
暂无数据
尚未选择
发送
S
S
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
sdfkjk
回复
@ANYA
请问z100l可以用085的vllm推理qwen3吗
2025/12/29
赞
回复
@圈友
暂无数据
尚未选择
发送
土
土
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
土土
回复
@sdfkjk
你好你找到z100l能用的vllm镜像了吗
2025/12/30
赞
回复
@圈友
暂无数据
尚未选择
发送
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
Hikafeng
只看此人
4楼
你的模型文件是是不是没下全 还有你物理机操作系统是什么 docker 版本是多少
2025/12/15
赞
回复
@圈友
暂无数据
尚未选择
发送
Z
Z
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
ZY
回复
@Hikafeng
已经查明了 是K100只支持vllm0.5.0
2025/12/16
赞
回复
@圈友
暂无数据
尚未选择
发送
Z
Z
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
ZY
回复
@Hikafeng
操作系统:OpenEuler 22.03 docker28.5
2025/12/16
赞
回复
@圈友
暂无数据
尚未选择
发送
Z
Z
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
ZY
楼主
只看此人
3楼
services: qwen3-32b-tool: image: image.sourcefind.cn:5000/dcu/admin/base/vllm:0.9.2-ubuntu22.04-dtk25.04.2-das1.7-py3.10-20251203 container_name: qwen3-32b-tool privileged: true devices: - /dev/kfd - /dev/dri - /dev/mkfd group_add: - video cap_add: - SYS_PTRACE security_opt: - seccomp:unconfined environment: - HIP_VISIBLE_DEVICES=0,1 - VLLM_WORKER_MULTIPROC_METHOD=spawn - OMP_NUM_THREADS=16 # - VLLM_USE_TRITON_FLASH_ATTN=True # - VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 volumes: - my-pip-cache:/root/.cache/pip - /ssddata/aimodel:/ssddata/aimodel - /opt/hyhal:/opt/hyhal:ro #- /HB/models/tool-call-parser:/HB/models/tool-call-parser # - /HB/models/dist-packages/vllm:/usr/local/lib/python3.10/dist-packages/vllm shm_size: '64g' # 共享内存调大 api-key sk-Wp1****************KjUpPZD86 \ # command: bash # tty: true # stdin_open: true command: bash -c "export ALLREDUCE_STREAM_WITH_COMPUTE=1 && \ export VLLM_NUMA_BIND=1 && \ export VLLM_RANK0_NUMA=0 && \ export VLLM_RANK1_NUMA=1 && \ export VLLM_RANK2_NUMA=2 && \ export VLLM_RANK3_NUMA=3 && \ vllm serve /ssddata/aimodel/Qwen3-8B \ --served-model-name Qwen3-8B \ --host 0.0.0.0 \ --port 8000 \ --max-model-len 32768 \ --reasoning-parser qwen3 \ --gpu-memory-utilization 0.95 \ --tool-call-parser hermes \ --enforce-eager \ --enable-auto-tool-choice \ --max-num-batched-tokens 32768 \ --tensor-parallel-size 2 \ --trust-remote-code" ports: - "8000:8000" networks: - vllm ulimits: nproc: 65535 nofile: soft: 65535 hard: 65535 volumes: my-pip-cache: networks: vllm: external: true
2025/12/15
赞
回复
@圈友
暂无数据
尚未选择
发送
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
Hikafeng
只看此人
2楼
可以参考这个 git 仓库 https://github.com/hikafeng/dcu-vllm.git
2025/12/15
赞
1
回复
@圈友
暂无数据
尚未选择
发送
Z
Z
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
ZY
回复
@Hikafeng
感谢但还是有问题,报ERROR 12-15 11:27:58 [engine.py:476] IndexError: max(): Expected reduction dim 2 to have non-zero size. Process SpawnProcess-1: ERROR 12-15 11:27:59 [multiproc_worker_utils.py:121] Worker VllmWorkerProcess pid 210 died, exit code: -15
2025/12/15
赞
回复
@圈友
暂无数据
尚未选择
发送
Z
Z
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
ZY
楼主
只看此人
1楼
Worker failed with error 'HIP error: invalid device function
2025/12/14
赞
1
回复
@圈友
暂无数据
尚未选择
发送
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
Hikafeng
回复
@ZY
HIP_VISIBLE_DEVICES=0,1,2,3 类似这样 后面是dcu设备id
2025/12/14
赞
1
回复
@圈友
暂无数据
尚未选择
发送
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
Hikafeng
回复
@ZY
缺少环境变量设置
2025/12/14
赞
回复
@圈友
暂无数据
尚未选择
发送
这个人很懒,什么也没留下~
0
发帖总数
0
点赞
0
已关注
0
粉丝
关注
私信
屏蔽
Hikafeng
回复
@ZY
可能还缺少其他设置 不过我一眼看出来缺少这个环境变量
2025/12/14
赞
回复
@圈友
暂无数据
尚未选择
发送
全部4条回复
没有更多内容了
--
楼主
0
点赞
0
帖子
关注
私信
楼主热帖
暂无数据
常见问题新帖
暂无数据