手把手教你用stream做内存带宽压测详解

📌 鲲鹏 920 通常搭配 DDR4-2400/3200,单线程 ~15-20 GB/s,16 线程 ~80-120 GB/s 属于正常范围。例如:单线程 Triad = 18 GB/s,16 线程 Triad = 120 GB/s。...

阅读CSDN原文 →
OpenClaw 连接 Ollama 完整图文教程

本文提供了在Windows系统下通过OpenClaw连接Ollama的完整图文教程。主要内容包括:1)下载安装Ollama客户端;2)修改模型存储路径;3)通过命令行下载所需模型;4)在OpenClaw中配置Ollama地址并测试连接...

阅读CSDN原文 →
【AMD ROCm 实战】云端 AI 开发系列(二):CUDA 到 ROCm 迁移实战——YOLOv8 目标检测模型全流程对标

本文详细记录将 YOLOv8 目标检测模型从 NVIDIA CUDA 环境迁移至 AMD ROCm 平台的完整流程。包含代码改造要点、算子兼容性测试、详细的性能对标数据(FPS、延迟、显存占用),以及 3 个典型报错的排查与修复方案。...

阅读CSDN原文 →
从 CUDA 叛逃到 ROCm:一个金融 AI 程序员的血泪迁移实录

从最开始对 ROCm 半信半疑,到现在把核心推理服务跑在 MI300X 上,这几个月的迁移之旅让我对 AMD 的开源策略有了更多的信心。 ROCm 不完美,坑也不少,但它在认真补。vLLM 的 AITER_FA 后端、PyTorch...

阅读CSDN原文 →
Radeon显卡的高性价比AI开发实战指南

本文将完整记录在AMD Radeon显卡上从零搭建AI开发环境的全过程——从ROCm配置、PyTorch安装,到LLM部署和多卡并行推理,带你用游戏卡的预算实现专业级的AI算力。

阅读CSDN原文 →