高性能计算： RoCE v2 vs. InfiniBand 网络该怎么选？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Distributions

› Ubuntu

› Fedora

› CentOS

中文资源站

› 网易开源镜像站

这是一个创建于 853 天前的主题，其中的信息可能已经有所发展或是发生改变。

RoCE 规范在以太网上实现了 RDMA 功能，ROCE 需要无损网络，RoCE 的主要优势在于它的延迟较低，因此可提高网络利用率；同时它可避开 TCP/IP 并采用硬件卸载，因此 CPU 利用率也较低。

高性能计算：RoCE v2 vs. InfiniBand 网络该怎么选

13 条回复 • 2022-09-19 22:28:24 +08:00

1

ea3ba5c0

2022-09-18 16:43:44 +08:00 via Android

2

泼点冷水，这文章写的太水了。
都 2022 年了，还怎么选。roce v2 早就占满了各个机房。

2

A01514035

2022-09-18 19:13:46 +08:00

1

第一次在 V2 看到了 RDMA 。

3

webcape233

2022-09-18 19:17:55 +08:00

hpc 里面基本都是 ib ，但是 ib 太贵了。

4

abbottcn

2022-09-18 23:31:04 +08:00

中文读上去有点怪,
感觉像机器翻译的 RHEL 技术手册.

不说十年前, 至少 8 年前, 我们机房的机器, 就在用 IB 了.
High bandwidth and low latency, 这是关键, 当然还有高并发 I/O.
应用很简单, 要么是一个任务使用上百个 MPI, 这种任务一般三五天; 要么就是一个用户, 一下发 2000 到 1 万个单 CPU 核心的计算任务, 每一个可能跑十来分钟.

IB 是标配.

现在看到好多小伙伴咸鱼搞 56G IB 网卡,
拿回家在以太网模式玩集群并行计算, 好搞笑.

5

ppj

OP

2022-09-19 09:39:14 +08:00

@abbottcn RoCE v2 已经广泛应用，只是目前国内超算 /高算的领导喜欢听人忽悠搞政绩而已。

6

abbottcn

2022-09-19 09:50:14 +08:00

@ppj 简单测试过 VASP.
E5 2686v4 + 10GbE, 使用 RDMA 之后,
双节点并行(72 个物理核心), 纯 MPI,
加速效率 0.8 (理论上, 如果 36 核心需要 2 小时; 那么使用 72 核心应该是 1 小时), 已经算不错了.

而使用 IB, 多达 8 个节点, 线性效率依旧能保持在 0.85 左右(测试数据来自挪威的一个实验室).

如果使用更多节点的时候, 比如 3 个节点, 4 个节点, 以太网+RDMA, 效果很差劲.
主要的问题是 high latency.

VASP MPI 多核心并行, MPI Rank 之间频繁交换数据, 不过数据包很小.
所以, 对于这类 MPI 并行, 大规模并行, latency 还是很重要的.

未测试其他应用, 不敢妄加评论 RoCE 实际效果.

7

Defined

2022-09-19 10:39:12 +08:00

看钱啊，有钱整套网络设备都换掉，肯定是 IB 好啊，不管从性能还是稳定性考虑。

8

spacezip

2022-09-19 12:26:30 +08:00

稳定性肯定 ib
前两年看人折腾过 intel opa 各种问题硬着头皮上

9

ea3ba5c0

2022-09-19 13:10:33 +08:00

@abbottcn RoCE v2 最重要的是流控，估计是流控没做好。

10

ppj

OP

2022-09-19 13:11:22 +08:00

@abbottcn 分布式并行存储用的什么？小文件并行计算，存储软件选择也是影响 latency 的因素。

11

ea3ba5c0

2022-09-19 13:12:17 +08:00

@Defined 不觉得 IB 好，这种专有设备，机房都要特殊布线，出问题不好排查。
RoCE v2 走以太网，更好的网络互联。

12

abbottcn

2022-09-19 14:27:01 +08:00 via iPhone

@ppj 我自己的集群，就四个节点，要什么高大上的并行文件系统，分布式存储？
直接 NVMe RAID0 搞定。整个系统满负荷运行时，可以做到 CPU 99%被用户利用。稍有 iowait 占比。

之前的浪潮，曙光产品，不晓得他们用啥做存储，有点卡。

我只是个外行。只晓得怎么让我用过的程序，
在集群上，跑得更快更稳定。其他不懂。

我只会用 netdata 分析系统负载压力，其他不会。

[容易忽略的性能短板] https://b23.tv/EnbjGkw

13

lustyone

2022-09-19 22:28:24 +08:00 via iPhone

@ea3ba5c0 2022 年了，ib 可以稳定支撑 60k 节点规模网络稳定运行。至于 roce 如果你是业内人员的话应该知道没有一个集群可以稳定运行超过 1k 个节点，或者堆人力去运维或者损失很多带宽效率。至于国内的 harp 等是另外一个故事不展开。

不要想当然认为全球的高性能计算专家都在黑钱。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2721 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 10:20 · PVG 18:20 · LAX 02:20 · JFK 05:20
Developed with CodeLauncher
♥ Do have faith in what you're doing.