AI4S计算当中,真正的瓶颈往往不是算力而是通信,中科院研究员王展就分享了自己做分子动力学模拟的体会。 这种计算有个特点:体系特别大,而且每一步计算都要不断和周围节点交换数据。节点一多,大量时间就会花在通信上。 王展老师提到,他们过去做分子模拟优化,很多精力其实都花在网络通信上,比如优化RDMA通信、绑定CPU和网卡队列、减少跨NUMA的数据搬运。 他们拿到中科曙光scaleFabric首批测试资格后,第一件事就是跑各种底层测试。结果很惊艳:单QP通信性能表现比英伟达CX-7还好,多QP下一些数据也占优;延迟方面,RDMA Write大约1微秒,交换机转发250纳秒左右,毫不逊色于英伟达的表现。 看起来只是几十纳秒、几百纳秒的差别,但在分子模拟这种每一步都要通信的程序里,这种差距会被不断放大。 他们还在国家超算互联网核心节点上测试了大规模计算中的通信效果:当计算卡规模扩展到一百多卡的时候,跨节点通信带宽还能持续提升,最终达到120GB/s以上。 简单说就是,节点变多了,但网络没有很快成为瓶颈。 随着科学智能向材料、药物、物理这些领域不断延伸,像这种低延迟、高扩展的高速互联网络,将会越来越关键。
