有回复
K100_AI 卡压力测试 HyQual 和 DCUBurn,HyQual 已经跑完了,DCUBurn 没找到测试工具包
光合开发者社区没有看到 DCUBurn
JerryLee
1
运行时
Gemma 4 31B MTP加速跑通了,速度翻倍
已经跑通了 Gemma 4 31B MTP。
Z100L*4(pcie 3.0)
核心结论:**Gemma 4 assistant 必须和 31B target 一起走 TP**。如果 target TP、assistant 只复制到单卡,**shared\_kv\_states** 语义不匹配,draft acceptance 会变成 **0%**,反而降速。assistant 也走 TP
muyi_muyi
1
其他
vllm多机支持MP了吗
新人帖
看模型仓库的demo都是用的ray拉起的多机,现在vllm官方已经基本全部转向MP了,DCU现在支持MP吗
如果支持了,有Demo吗
刘桢
2
其他
线下实操走起!海光 DCU + 飞桨 AI 黑客松北京站开放报名
当国产算力遇上顶尖AI框架,一场专为AI开发者打造的技术盛宴正式启幕!DCU联合百度飞桨黑客松北京线下Meetup,现已全面开启报名通道!无论你是深耕AI领域的技术达人,还是初探赛道的潜力开发者,这场实操性拉满、干货密集的线下聚会,都值得你全力以赴奔赴!
本次Meetup以“国产算力赋能AI创新”为核心,依托DCU高效算力支撑与百度飞桨开源AI框架优势,打破技术壁垒,搭建开发者面对面交流、实操、
ghdevadmin
0
资讯分享
海光CSV3+异构GPU机密计算启动方案疑问
新人帖
最近在尝试在海光CPU CSV3的机密计算上扩展一块带加解密模块能对pcie通路数据做加密传输的GPU,类似NV的H100,关于联合启动的方案有些许疑问:
1)如果GPU不支持DOE或者TEE-IO,还能用SPDM协议去实现设备认证,密钥协商之类的吗?如果能,会有什么安全风险,影响商业落地吗?
2)如果不用SPDM的话,应该要怎么在CSV3上扩展GPU TEE呢?
3)密钥协商的密钥是否需要
刘会贵
0
机密计算
海光破壁-从海光专属栈到通用 AI 模型栈的开荒,最新vllm,llama和任意模型
适合显卡玩家、国产 GPU 折腾者、AI 智能体执行者阅读,测试卡z100l*40. 先说结论:这不是刷卡教程,而是“通用栈还原工程”这篇文章讲的是一次 Z100L 显卡开荒:目标不是把卡伪装成 AMD,不是刷 VBIOS,也不是继续依赖海光私有 demo,而是尽量把它拉回到 PyTorch/HIP/vLLM/Transformers/FastAPI 这类更通用的开源模型运行方式。最终结果可以概括
muyi_muyi
2
框架组件
K100_AI 编译的 llama.cpp 支持 Qwen3.6 MoE 模型
# 【分享】K100_AI 编译的 llama.cpp 已支持 Qwen3.6 MoE 模型
使用 **DTK 26.04** 镜像编译 `llama.cpp`,实测成功支持 **Qwen3.6 MoE** 的 GGUF 模型推理,有需要小伙伴下载试试。下面是在海光 DTK 26.04 镜像内的完整使用步骤。
## 1. 下载编译好的 llama.cpp
```bash
wget http://60.190.128.9/llama.cpp.tar.gz
```
## 2. 复制至海光 DTK 26.04 镜像
```bash
docker cp ./llama.cpp.tar.gz 你的DTK-26.04镜像:/workspace
将 你的DTK-26.04镜像 替换为实际容器名或 ID。
```
## 3. 进入镜像,解压并运行
```bash
docker exec -it 你的DTK-26.04镜像 bash
cd /workspace
tar -zxvf llama.cpp.tar.gz
cd llama.cpp
```
## 4. 运行 Qwen3.6 MoE GGUF 模型
```bash
./build/bin/llama-cli \
-m /data/.../Qwen3.6-35B-A3B.gguf \
-ngl 99 -t 32 \
-p "你好,用一句中文介绍你自己。"
```
请将 /data/.../model.gguf 替换为你实际的 GGUF 模型路径。
gen
4
框架组件
按照论坛大佬们给的方式部署deepseek-v4-flash版在1台K100AI上(8卡)实测
注:本来还想实测一下2台K100AI跑MP16的,奈何1台都这么慢了,就先不测了。
还请官方多关注一下K100AI的推理优化!
以下是参考了论坛帖子(https://forum.sourcefind.cn/thread/c5cfdcfa-3fd5-11f1-bde9-0242ac150003)
和魔搭评论区(https://modelscope.cn/models/FlagRelease/Dee
aaatest
4
DeepSeek
K100服务器支持部署SenseVoice多语言语音理解模型吗?
新人帖
K100服务器支持部署SenseVoice多语言语音理解模型吗?
吴亚兵
2
DeepSeek
【活动结果公示】光合开发者社区「建言献策 共筑新篇」优质建议征集活动圆满落幕
精华
# 【活动结果公示】光合开发者社区「建言献策 共筑新篇」优质建议征集活动圆满落幕
各位光合开发者社区的伙伴们,大家好!
为期 1 个月的**聚开发者智慧,优社区体验,筑技术生态 —— 光合开发者社区优质建议征集**活动已正式落幕✨。自 3 月 18 日启动以来,我们收到了广大开发者、技术爱好者的踊跃参与,大家围绕**功能优化、内容建设、用户体验、生态发展**四大方向,提出了大量真实、实用、可落
ghdevadmin
0
资讯分享
有回复
Qwen3.6+vllm0.18报错,
报错:No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-consuming work (e.g., compilation, weight/kv cache quantiza
zjf
1
数学库
核心节点上是否支持cuda-aware MPI
如果支持如何在python cupy中使用cuda-aware MPI
网友61O4dm
0
数学库
X7840H0品牌适配K100- AI后,migraphx 加载时提示无法识别 TRTDCNv3 算子
新人帖
属于白标或者贴标-X7840H0品牌:
CPU:2个*7265
内存:16个*32G
系统硬盘:2个*480G
数据硬盘: 6个*8T
网络: 四口千兆 3260-18i 8G
电源: 4个*2000W
显卡:4个*K100- AI
1. 目前我们模型是使用 mmdet3.0 训练,其中用到了 DCNv3 算子,mmdeploy导出的 onnx 后使用 migraphx 加载时提示无法识别 T
donggl2015
0
数学库
有回复
gemma4+ openclaw vllm 0.18 有bug吗请问
gemma4+ openclaw vllm 0.18 有bug吗请问
报错:你好 你是谁
run error: Not being used, manual parsing in serving\_chat.py
zjf
5
数学库
没有更多内容了

