我的关注
所有版块
官方技术指导
模型讨论区
DTK开发
AI人工智能
科学计算应用
OneScience
基金与大赛
C86 DevKit
FAQ
综合排序
最新发布
最新回复
精华
有回复
K100_AI 卡压力测试 HyQual 和 DCUBurn,HyQual 已经跑完了,DCUBurn 没找到测试工具包
光合开发者社区没有看到 DCUBurn
JerryLee
11小时前
1
运行时
Gemma 4 31B MTP加速跑通了,速度翻倍
已经跑通了 Gemma 4 31B MTP。 Z100L*4(pcie 3.0) 核心结论:**Gemma 4 assistant 必须和 31B target 一起走 TP**。如果 target TP、assistant 只复制到单卡,**shared\_kv\_states** 语义不匹配,draft acceptance 会变成 **0%**,反而降速。assistant 也走 TP
muyi_muyi
12小时前
1
其他
vllm多机支持MP了吗
新人帖
看模型仓库的demo都是用的ray拉起的多机,现在vllm官方已经基本全部转向MP了,DCU现在支持MP吗 如果支持了,有Demo吗
刘桢
2026-05-06 17:39:20
2
其他
线下实操走起!海光 DCU + 飞桨 AI 黑客松北京站开放报名
当国产算力遇上顶尖AI框架,一场专为AI开发者打造的技术盛宴正式启幕!DCU联合百度飞桨黑客松北京线下Meetup,现已全面开启报名通道!无论你是深耕AI领域的技术达人,还是初探赛道的潜力开发者,这场实操性拉满、干货密集的线下聚会,都值得你全力以赴奔赴! 本次Meetup以“国产算力赋能AI创新”为核心,依托DCU高效算力支撑与百度飞桨开源AI框架优势,打破技术壁垒,搭建开发者面对面交流、实操、
ghdevadmin
2026-05-06 17:36:49
0
资讯分享
海光CSV3+异构GPU机密计算启动方案疑问
新人帖
最近在尝试在海光CPU CSV3的机密计算上扩展一块带加解密模块能对pcie通路数据做加密传输的GPU,类似NV的H100,关于联合启动的方案有些许疑问: 1)如果GPU不支持DOE或者TEE-IO,还能用SPDM协议去实现设备认证,密钥协商之类的吗?如果能,会有什么安全风险,影响商业落地吗? 2)如果不用SPDM的话,应该要怎么在CSV3上扩展GPU TEE呢? 3)密钥协商的密钥是否需要
刘会贵
2026-05-06 14:50:18
0
机密计算
海光破壁-从海光专属栈到通用 AI 模型栈的开荒,最新vllm,llama和任意模型
适合显卡玩家、国产 GPU 折腾者、AI 智能体执行者阅读,测试卡z100l*40. 先说结论:这不是刷卡教程,而是“通用栈还原工程”这篇文章讲的是一次 Z100L 显卡开荒:目标不是把卡伪装成 AMD,不是刷 VBIOS,也不是继续依赖海光私有 demo,而是尽量把它拉回到 PyTorch/HIP/vLLM/Transformers/FastAPI 这类更通用的开源模型运行方式。最终结果可以概括
muyi_muyi
2026-05-03 17:32:23
2
框架组件
K100_AI 编译的 llama.cpp 支持 Qwen3.6 MoE 模型
# 【分享】K100_AI 编译的 llama.cpp 已支持 Qwen3.6 MoE 模型 使用 **DTK 26.04** 镜像编译 `llama.cpp`,实测成功支持 **Qwen3.6 MoE** 的 GGUF 模型推理,有需要小伙伴下载试试。下面是在海光 DTK 26.04 镜像内的完整使用步骤。 ## 1. 下载编译好的 llama.cpp ```bash wget http://60.190.128.9/llama.cpp.tar.gz ``` ## 2. 复制至海光 DTK 26.04 镜像 ```bash docker cp ./llama.cpp.tar.gz 你的DTK-26.04镜像:/workspace 将 你的DTK-26.04镜像 替换为实际容器名或 ID。 ``` ## 3. 进入镜像,解压并运行 ```bash docker exec -it 你的DTK-26.04镜像 bash cd /workspace tar -zxvf llama.cpp.tar.gz cd llama.cpp ``` ## 4. 运行 Qwen3.6 MoE GGUF 模型 ```bash ./build/bin/llama-cli \ -m /data/.../Qwen3.6-35B-A3B.gguf \ -ngl 99 -t 32 \ -p "你好,用一句中文介绍你自己。" ``` 请将 /data/.../model.gguf 替换为你实际的 GGUF 模型路径。
gen
2026-05-02 09:07:38
4
框架组件
按照论坛大佬们给的方式部署deepseek-v4-flash版在1台K100AI上(8卡)实测
注:本来还想实测一下2台K100AI跑MP16的,奈何1台都这么慢了,就先不测了。 还请官方多关注一下K100AI的推理优化! 以下是参考了论坛帖子(https://forum.sourcefind.cn/thread/c5cfdcfa-3fd5-11f1-bde9-0242ac150003) 和魔搭评论区(https://modelscope.cn/models/FlagRelease/Dee
aaatest
2026-04-30 16:17:20
4
DeepSeek
K100服务器支持部署SenseVoice多语言语音理解模型吗?
新人帖
K100服务器支持部署SenseVoice多语言语音理解模型吗?
吴亚兵
2026-04-30 15:39:41
2
DeepSeek
【活动结果公示】光合开发者社区「建言献策 共筑新篇」优质建议征集活动圆满落幕
精华
# 【活动结果公示】光合开发者社区「建言献策 共筑新篇」优质建议征集活动圆满落幕 各位光合开发者社区的伙伴们,大家好! 为期 1 个月的**聚开发者智慧,优社区体验,筑技术生态 —— 光合开发者社区优质建议征集**活动已正式落幕✨。自 3 月 18 日启动以来,我们收到了广大开发者、技术爱好者的踊跃参与,大家围绕**功能优化、内容建设、用户体验、生态发展**四大方向,提出了大量真实、实用、可落
ghdevadmin
2026-04-30 15:20:16
0
资讯分享
有回复
Qwen3.6+vllm0.18报错,
报错:No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-consuming work (e.g., compilation, weight/kv cache quantiza
zjf
2026-04-30 10:11:55
1
数学库
核心节点上是否支持cuda-aware MPI
如果支持如何在python cupy中使用cuda-aware MPI
网友61O4dm
2026-04-29 18:42:17
0
数学库
X7840H0品牌适配K100- AI后,migraphx 加载时提示无法识别 TRTDCNv3 算子
新人帖
属于白标或者贴标-X7840H0品牌: CPU:2个*7265 内存:16个*32G 系统硬盘:2个*480G 数据硬盘: 6个*8T 网络: 四口千兆 3260-18i 8G 电源: 4个*2000W 显卡:4个*K100- AI 1. 目前我们模型是使用 mmdet3.0 训练,其中用到了 DCNv3 算子,mmdeploy导出的 onnx 后使用 migraphx 加载时提示无法识别 T
donggl2015
2026-04-29 16:38:15
0
数学库
有回复
gemma4+ openclaw vllm 0.18 有bug吗请问
gemma4+ openclaw vllm 0.18 有bug吗请问 报错:你好 你是谁 run error: Not being used, manual parsing in serving\_chat.py
zjf
2026-04-29 15:38:21
5
数学库
没有更多内容了
热门话题
SBATCH -N 1,两个节点
先导杯大赛
False
光源
Offload
本周热帖
1
关于适配大模型,给海光的建议
12
2
海光信息向媒体宣布Day0适配DeepSeek V4。
7
3
K100-AI跑Deepseek-V4实测
3
4
按照论坛大佬们给的方式部署deepseek-v4-flash版在1台K100AI上(8卡)实测
4
5
海光K100AI用flagos推理MiniMax-M2.5-AWQ输出可以到27.6tps
31
今日推荐
论坛发贴必看!!
513
【光合基金分享】OpenChiral 一款模拟质子、中子以及轻核质量的内部结构及其量子效应的贡献与影响
219
#hipfort# hipfort的Github页面
94
【光合基金分享】HIP编程中流(stream)的使用
187
【今天下午4:00】DCU开发者线上workshop邀您参加
360
扫一扫访问移动端
光合开发者社区