光合开发者社区-论坛

光合开发者社区没有看到 DCUBurn

JerryLee

11小时前

1

运行时

已经跑通了 Gemma 4 31B MTP。 Z100L*4(pcie 3.0) 核心结论：**Gemma 4 assistant 必须和 31B target 一起走 TP**。如果 target TP、assistant 只复制到单卡，**shared\_kv\_states** 语义不匹配，draft acceptance 会变成 **0%**，反而降速。assistant 也走 TP

muyi_muyi

12小时前

1

其他

看模型仓库的demo都是用的ray拉起的多机，现在vllm官方已经基本全部转向MP了，DCU现在支持MP吗如果支持了，有Demo吗

刘桢

2026-05-06 17:39:20

2

其他

当国产算力遇上顶尖AI框架，一场专为AI开发者打造的技术盛宴正式启幕！DCU联合百度飞桨黑客松北京线下Meetup，现已全面开启报名通道！无论你是深耕AI领域的技术达人，还是初探赛道的潜力开发者，这场实操性拉满、干货密集的线下聚会，都值得你全力以赴奔赴！本次Meetup以“国产算力赋能AI创新”为核心，依托DCU高效算力支撑与百度飞桨开源AI框架优势，打破技术壁垒，搭建开发者面对面交流、实操、

ghdevadmin

2026-05-06 17:36:49

0

资讯分享

最近在尝试在海光CPU CSV3的机密计算上扩展一块带加解密模块能对pcie通路数据做加密传输的GPU，类似NV的H100,关于联合启动的方案有些许疑问： 1）如果GPU不支持DOE或者TEE-IO，还能用SPDM协议去实现设备认证，密钥协商之类的吗？如果能，会有什么安全风险，影响商业落地吗？ 2）如果不用SPDM的话，应该要怎么在CSV3上扩展GPU TEE呢？ 3）密钥协商的密钥是否需要

刘会贵

2026-05-06 14:50:18

0

机密计算

适合显卡玩家、国产 GPU 折腾者、AI 智能体执行者阅读，测试卡z100l*40. 先说结论：这不是刷卡教程，而是“通用栈还原工程”这篇文章讲的是一次 Z100L 显卡开荒：目标不是把卡伪装成 AMD，不是刷 VBIOS，也不是继续依赖海光私有 demo，而是尽量把它拉回到 PyTorch/HIP/vLLM/Transformers/FastAPI 这类更通用的开源模型运行方式。最终结果可以概括

muyi_muyi

2026-05-03 17:32:23

2

框架组件

# 【分享】K100_AI 编译的 llama.cpp 已支持 Qwen3.6 MoE 模型使用 **DTK 26.04** 镜像编译 `llama.cpp`，实测成功支持 **Qwen3.6 MoE** 的 GGUF 模型推理，有需要小伙伴下载试试。下面是在海光 DTK 26.04 镜像内的完整使用步骤。 ## 1. 下载编译好的 llama.cpp ```bash wget http://60.190.128.9/llama.cpp.tar.gz ``` ## 2. 复制至海光 DTK 26.04 镜像 ```bash docker cp ./llama.cpp.tar.gz 你的DTK-26.04镜像:/workspace 将你的DTK-26.04镜像替换为实际容器名或 ID。 ``` ## 3. 进入镜像，解压并运行 ```bash docker exec -it 你的DTK-26.04镜像 bash cd /workspace tar -zxvf llama.cpp.tar.gz cd llama.cpp ``` ## 4. 运行 Qwen3.6 MoE GGUF 模型 ```bash ./build/bin/llama-cli \ -m /data/.../Qwen3.6-35B-A3B.gguf \ -ngl 99 -t 32 \ -p "你好，用一句中文介绍你自己。" ``` 请将 /data/.../model.gguf 替换为你实际的 GGUF 模型路径。

gen

2026-05-02 09:07:38

4

框架组件

注：本来还想实测一下2台K100AI跑MP16的，奈何1台都这么慢了，就先不测了。还请官方多关注一下K100AI的推理优化！以下是参考了论坛帖子（https://forum.sourcefind.cn/thread/c5cfdcfa-3fd5-11f1-bde9-0242ac150003）和魔搭评论区（https://modelscope.cn/models/FlagRelease/Dee

aaatest

2026-04-30 16:17:20

4

DeepSeek

K100服务器支持部署SenseVoice多语言语音理解模型吗？

吴亚兵

2026-04-30 15:39:41

2

DeepSeek

# 【活动结果公示】光合开发者社区「建言献策共筑新篇」优质建议征集活动圆满落幕各位光合开发者社区的伙伴们，大家好！为期 1 个月的**聚开发者智慧，优社区体验，筑技术生态 —— 光合开发者社区优质建议征集**活动已正式落幕✨。自 3 月 18 日启动以来，我们收到了广大开发者、技术爱好者的踊跃参与，大家围绕**功能优化、内容建设、用户体验、生态发展**四大方向，提出了大量真实、实用、可落

ghdevadmin

2026-04-30 15:20:16

0

资讯分享

报错：No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-consuming work (e.g., compilation, weight/kv cache quantiza

zjf

2026-04-30 10:11:55

1

数学库

如果支持如何在python cupy中使用cuda-aware MPI

网友61O4dm

2026-04-29 18:42:17

0

数学库

属于白标或者贴标-X7840H0品牌： CPU:2个*7265 内存：16个*32G 系统硬盘：2个*480G 数据硬盘： 6个*8T 网络：四口千兆 3260-18i 8G 电源： 4个*2000W 显卡：4个*K100- AI 1. 目前我们模型是使用 mmdet3.0 训练，其中用到了 DCNv3 算子，mmdeploy导出的 onnx 后使用 migraphx 加载时提示无法识别 T

donggl2015

2026-04-29 16:38:15

0

数学库

gemma4+ openclaw vllm 0.18 有bug吗请问报错：你好你是谁 run error: Not being used, manual parsing in serving\_chat.py

zjf

2026-04-29 15:38:21

5

数学库