变成 M1 Ultra ,感觉像是合体技😂
1
billgong 2022-03-09 07:28:47 +08:00 1
看图的话,这个和 infinity fabric 以及 NVLink 类似的 inter chip connectivity 差不多。我感觉可以权当快一点的双路 SMP 。
似乎内存控制器也是分片的,不知道实际使用下 NUMA Node 会不会造成瓶颈。没太搞明白 800G 的内存带宽怎么算出来的,毕竟这么设计,片间损耗不会小。 |
2
Aviciii 2022-03-09 08:19:56 +08:00
M1 刚出来的时候就有新闻说可以无缝拼接,貌似还可以接更多
|
3
b1t 2022-03-09 08:20:51 +08:00 via iPhone
胶水 cpu ,又不是第一次这么玩了
|
4
shutongxinq 2022-03-09 08:29:19 +08:00 1
@billgong 老哥别瞎讲。这种类似于 CoWoS 的技术和 infinity fabric / NVLink 有本质的不同,这是直接把芯片 fuse 在一起,是台积电的类似于 Intel 的先进封装的技术
从带宽上也可以看出来。Infinity fabric 200GB 不到的带宽,和 2.5T 的 M1 Ultra 怎么比? 内存控制器分片太常见了,你看哪个服务器 u 没有分片? 800GB = 2*400GB ,两款 M1 Max ,很直观的。 |
5
aptupdate 2022-03-09 08:35:02 +08:00 via iPhone 6
ultra 应该叫 m2 ,三块拼一起的叫 m3……
|
6
billgong 2022-03-09 08:41:04 +08:00 1
@shutongxinq 是同一种进化路线,毕竟 IF/NVLink 已经是多年前的技术了,进化到现在自然就是 2.5D 封装了。接下来就是标准化,片内用各家的自己的片间通信,片外用比如前段时间公布的 UCIe 。
片间通信速度再快也得抵得上不同内存控制器间的延迟以及其他设备(比如显卡、三缓)争抢的带宽。苹果的设计理念就是所有东西都是 interconnected ,所以才需要那么宽的 UltraFusion ,上面会跑的东西有很多,不只是三四五级缓存。 Intel 的多路 CPU 的 NUMA 一直是个瓶颈,EPYC 上则同一个 package 上都有 NUMA 瓶颈。既然两个 M1 Max 拼在一起,又没有共享内存控制器,那就会有瓶颈。这个瓶颈肯定比 Intel 、AMD 那边好看的多(架构决定的)但能不能做到翻倍的性能提升,就得看 workload 了。 |
7
billgong 2022-03-09 08:47:03 +08:00
@aptupdate 多处理器拼在一起不是简简单单的黏在一起就可以了,Pentium D 就是个例子。芯片越多对片间总线的压力就越大。两颗芯片只需要照顾相互通信即可,三芯片就得两两连接在一起,四芯片的话,每个芯片都需要能和其他三片直接连接,等等等等,复杂度会越来越高。如果是单一的统一总线,那速度一定快不起来,可以拿交换机的背板容量作不太恰当的比喻。因此,这种多芯片连接的架构可扩展性是有一个上限的,超过平衡点后,一些 workload 的性能就会出现断层式下降。
|
8
cuixiao603 2022-03-09 08:47:39 +08:00
英特尔时代给苹果留的散热空间太大了,感觉苹果光这么拼 cpu 也够撑几年
|
9
wobuhuicode 2022-03-09 08:50:35 +08:00 2
懂了。年底等 两个 M1 Ultra 拼起来的 Super M1 Ultra
|
10
Leonard 2022-03-09 09:01:18 +08:00
Mac Pro 还更新,还有更高规格的
|
12
yoyoyoyolol 2022-03-09 09:04:20 +08:00
@Leonard 发布会那个主持人说 ultra 是 M1 系列的最后一款芯片,mac pro 可能是多块 m1 ultra 了
|
15
superchijinpeng 2022-03-09 09:21:54 +08:00
@billgong 老哥,快别不懂装懂了
|
16
zxxufo008 2022-03-09 09:28:36 +08:00
m1 ultra 是 m1 的最终体了,m2 大概率是要改架构加降低成本了
|
17
czfy 2022-03-09 09:33:55 +08:00
@billgong 按照 apple 的 PPT ,Ultra 性能并没有 Max 的两倍,所以实际使用上肯定到不了翻倍,还是会有损耗
|
18
fisherwei 2022-03-09 10:37:35 +08:00
@billgong
带宽上: 双路 xeon 的互联总线 UPI 是 10.6GT/s ,大约等于 84.8GB/s ,一个 CPU 有 3 个 UPI ,等于 254.4 GB/s 。和 UltraFusion 的 2.5TB/s 相差一个数量级。 延迟上: 具体还要等测试出来了。按照 epyc 的经验,socket 内 numa 之间的延迟大约和跨 socket 相差一个数量级。 |
20
BenX 2022-03-09 10:47:52 +08:00
秋季的 Mac Pro 就是四个胶水 M1 Max
|
21
billgong 2022-03-09 10:48:39 +08:00
@fisherwei 你说的没错,带宽上肯定不能和以前的总线作比较,发布会上也提到了这个。当然这个技术不是苹果独有的,各家都在开发这种片上的互联总线。主要还是延迟,真的得看这两颗 max 是否能做到同一个 numa node 了。
|
22
littlewing 2022-03-09 11:05:46 +08:00
服务器双路 CPU 不是标配吗,又不是啥新鲜技术了
|
23
shijingshijing 2022-03-09 14:17:55 +08:00
@billgong
Infinity Fabric / NVLink 是在 substrate 上进行的互联,说直白一点就是高密度高性能的 PCB; M1 Ultra 还有 NVIDIA 的 A100 ,走的是 Silicon ,电气性能要好的多,不管是传输功率还是信号完整性,都远好与前者,两者可以说不在一个数量级上。 如果不明白,请看下图: |
24
shijingshijing 2022-03-09 14:20:23 +08:00
@shijingshijing 23# 有的叫 Silicon Bridge ,只用到芯片与芯片之间一小部分;有的是一整片硅,叫 Interposer ,实质都是走硅介质。
|
25
yhrzpm 2022-03-09 19:25:48 +08:00
这不就是法环里的接肢
|