由于现在 AI 芯片大都采用英伟达 GPU,GPU 之间的连接也多使用 Nvidia NVLink。要想摆脱对英伟达的依赖或是进一步扩大计算规模,开发类似 NVLink 的互联技术必不可少。
据报道,英特尔、AMD、谷歌、微软、Meta、博通、思科和惠普等公司正在组建一个开放标准组织。来开发一种高速互连技术Ultra Accelerator Link (UALink),以连接和扩展数据中心服务器内的大量 AI 芯片。
这些公司涵盖了从芯片设计、软件开发到数据中心解决方案的多个领域,形成了一个多元化的合作团队。其中英特尔、谷歌等主要公司都已经推出了自己的 AI 芯片,本次组建联盟也可以看作是在为后续自研芯片的发展做铺垫。
UALink 被定义为一项开放的行业标准,使原始设备制造商(OEM)、IT 系统专业人员和系统集成商能够更轻松地设计、部署和维护 AI 数据中心,并提供更大的灵活性和可扩展性。这使得不同厂商的 AI 芯片可以互相兼容,不再依赖于单一供应商的专有标准。
(来源:UALink 组织)
从目前公布的图片来看,计算单元(POD)内部的各个 AI 芯片通过 UALink 连接起来,形成一个高效的内部网络,从而提升计算能力。
每个主机 CPU 连接多个 AI 芯片。CPU 通过 PCIe、CXL 或专有连接(Proprietary)与 AI 芯片通信。这些连接最终通过 Ultra Accelerator Switch 进行管理和协调,确保高效的数据传输和处理。
(来源:UALink 组织)
而多个计算单元通过 Ultra Ethernet(超以太网)进行连接,实现数据中心的横向扩展,提升整体处理能力和数据传输效率。最终形成一个灵活、高效且可扩展的 AI 数据中心网络架构。
UALink 专门针对 AI 芯片互连这个特定用途进行优化,相比之下,尽管可能不具有丰富的特性和功能,但能够实现更高效的芯片扩展。
为了 UALink 规范化发展,今年第三季度将成立 UALink 联盟,并会提供给组织成员第一版 UALink;更高带宽的更新规范 UALink 1.1 将于 2024 年第四季度推出。
据了解,UALink 1.0 可在每个计算单元上连接多达 1024 个 AI 芯片,并允许数据在芯片内存之间直接进行加载和存储,而不需要经过中间步骤。这意味着可以实现更快速、低延迟的数据传输,从而提升 AI 数据中心的整体性能。
例如,训练一个深度学习模型可能需要传输和处理数以 TB 计的数据,需要短时间内处理大量数据。任何能够提高数据互连带宽的技术或方法,都可以帮助更快地处理 AI 数据包,以更好地应对日益复杂和大规模的 AI 计算需求。
UALink 联盟在行业标准以太网基础上构建其技术,这可以降低开发和部署成本。其目标是达到甚至超过 NVLink 的速度,特别是在未来采用光互连技术时,这种速度优势会更加明显。它们还预计 NVLink 这种专有技术将在未来几年逐渐被淘汰,因为系统制造商更倾向于采用开放的行业标准。
AMD 数据中心解决方案总经理 Forrest Norrod 对外表示:“行业需要一个能够迅速推进的开放标准,允许多家公司为整个生态系统增值,而不受某一家公司的束缚。”这里的某一家公司显然指的是英伟达。
值得一提的是,UALink 联盟并不打算将英伟达排除在外,但英伟达预计不会主动加入,它的商业利益在于推广和维护其专有技术生态系统,支持一个开放标准(UALink)显然会削弱其市场优势。
据了解,英伟达在 AI 芯片领域估计占有 80% 至 95% 的市场份额,最近的财报显示,其数据中心销售额比去年同期增长了 400% 以上。
UALink 等新技术的出现有助于加速打破英伟达的“垄断”局面,其中最大受益者肯定是参与其中的 AMD、英特尔等传统半导体厂商和微软、谷歌、Meta 等开始自研芯片的大型科技公司。比如,微软和 OpenAI 计划花费至少 1000 亿美元打造一台超级计算机,来训练 AI 模型。该超级计算机代号“星际之门”,预计 2028 年推出,将搭载微软自研的 Cobalt 和 Maia 芯片,这些芯片之间的互联或许就会采用 UALink。
不过要想取代英伟达,短时间内不太可行。据悉,第一批 UALink 产品要在“几年”后推出,但不管怎么样,这是必须走出的一步,没人希望某一领域长期出现垄断性企业。
参考:
https://www.businesswire.com/news/home/20240530570930/pt/
https://techcrunch.com/2024/05/30/tech-giants-form-new-group-in-effort-to-wean-off-of-nvidia-hardware/
https://www.fierceelectronics.com/ai/amd-intel-others-propose-ualink-connect-scale-ai-chips
2024-11-06
2024-04-21
2024-09-06
微软资讯推荐
win10系统推荐