同泰怡 T1DEEP 主板内存配置优化方案:解决 VASP 计算 NUMA 节点检测异常问题

2025-10-24

问题背景

在基于同泰怡 T1DEEP 主板的计算环境中,当按照官网推荐配置 8 条内存时,即分别插入 CPU1 与 CPU2 的 C1、D1、G1、H1 插槽

运行 VASP 计算任务时出现如下错误:


[baolu@dg01 wang]$ mpirun -np 8 vasp_std

IPL WARN> Can not detect NUMA nodes for all cores. Check if RAM of all NUMA nodes is available.

IPL WARN> Can not detect NUMA nodes for all cores. Check if RAM of all NUMA nodes is available.

corrupted size vs. prev_size

[mpiexec@dg01] Error: Downstream from host dg01 exited abnormally

[mpiexec@dg01] Trying to close other downstreams。



问题分析

错误提示表明系统无法为所有核心检测到对应的 NUMA 节点,推测原因为内存插槽与 CPU 核心的 NUMA 映射关系不匹配。同泰怡 T1DEEP 主板搭载 16 条内存插槽,其硬件架构中内存通道与 NUMA 节点的绑定存在特定拓扑结构,官网推荐的 C1/D1/G1/H1 插槽配置未正确匹配 VASP 计算所需的 NUMA 节点资源分配,导致内存访问异常及进程崩溃。


解决方案

经验证,调整内存插槽配置可彻底解决该问题:将 8 条内存分别插入 CPU1 和 CPU2 的 A1、C1、E1、G1 插槽。

此配置通过优化内存与 CPU 核心的 NUMA 亲和性,确保所有核心能正确检测到对应 NUMA 节点的内存资源,消除了内存访问冲突,可稳定运行 VASP 计算任务。



阅读50
分享