有回复
海光 Z100L 同批次 6 卡已坏 3 张,LDS SRAM DED 故障,求问是否有类似案例
环境
- 主机:cczu-X7840H0
- CPU:Hygon C86 7380 32-core × 2
- DCU:Hygon Z100L × 6(32GB VRAM)
- 系统:Linux 5.15,ROCm/DTK 24.04
- 负载:PyTorch 2.1 DDP 训练,6 卡并行
问题描述
同一台机器上的 6 张海光 Z100L DCU,从 4 月底至今已有 3 张先后出现相同
tt gong
1
框架组件
有回复
千问3.6-35B-A3B-FP8支持吗
量化版的支持部署吗 我的是海光AI100
zjf
7
数学库
有回复
大佬们,安装torch时报OSError: libmpi.so.40: cannot open shared object file: No such file or directory报错,怎么处理呀
新人帖
Centos7.9操作系统,
Python设置的3.10,
下载的anaconda3,
dtk版本24.04.3,
torch下载的torch-2.1.0+das1.0+git00661e0.abi0.dtk2404-cp310-cp310-manylinux2014_x86_64.whl,
执行更换名称后显示安装成功了
mv torch-2.1.0+das1.0+git00661e
边孟涛
3
数学库
[实测]海光 DCU K100-AI 部署 Qwen3.5-122B + Reranker-4B + Embedding-8B 操作指南
一、项目概述
1.1 部署目标
在 8 卡海光 DCU K100-AI 服务器上,部署三个模型组成完整的 RAG 知识库服务,8 张卡全部利用,零空闲,Embedding 和 Reranker 各部署 2 个实例通过 Nginx 负载均衡,提升多用户并发文档上传场景下的吞吐量:
模型
用途
分配卡数
DCU 卡号
端口
Qwen3.5-122B-A10B-GPTQ-Int4
zhangjing
1
模型应用
有回复
求大神帮帮我!BW10 支持 hyburn 和 hyqual 嘛
我在 bw10 配置下使用之前 K100-ai 跑的 docker 内进行测试出现报错
[ERROR]: /mnt/d/work/hyqual/common/libsmn/base.c: 348: PCIESmnInit():search device Failed
[ERROR]: /mnt/d/work/hyqual/src/hyqual.c: 76: lowleve\_interface
李泽睿
3
运行时
有回复
求助大佬,这个是什么报错,如何解决
新人帖
海光k100-AI安装驱动报错,驱动版本为rock-6.3.28。
共八张卡,且在BMC界面查看发现掉了一张卡,是不是说明硬件有问题啊。
hycu: Failed to send message 0x4, Parameter 0xf, response 0xfe
hycu: PowerPlay hw init failed
hycu: hw init of IP block PowerPlay
trert933
2
基础环境
有回复
BW10 DCU 卡 进行 Hyqual 测试和 Hyburn 测试均出现报错
这两个测试项每次结果都是,是什么原因 运行 K100-ai 就可以 是不通用吗
[ERROR]: /mnt/d/work/hyqual/common/libsmn/base.c: 348: PCIESmnInit():search device Failed
[ERROR]: /mnt/d/work/hyqual/src/hyqual.c: 76: lowleve_interface_init
李泽睿
3
运行时
【光源上线】Qwen3.6
Qwen3.6 是一款采用混合专家 (MoE) 架构并包含视觉编码器的多模态因果语言模型。此版本重点优化了智能体编程 (Agentic Coding) 的准确率,并引入了思维保留 (Thinking Preservation) 机制,特别适合长上下文和复杂的代码仓库开发任务。
光源已上线!https://developer.sourcefind.cn/modelzoo/list/qwen3.6/
ghdevadmin
7
资讯分享
使用 rocm 调用 fft 错误,求大佬
新人帖
使用 rocm 调用 fft 正逆变换均返回错误,同样的程序以前在 bw1000 是跑通的。
网友XG5vo7
0
数学库
没有更多内容了
