当前位置:动态 > 正文
千行百业融合数字技术后的转型实践——NVIDIA
2022-07-22 09:40:13 来源: 中关村在线

数字孪生可以说是物理世界和智能世界的一次经典交汇,也展示出了千行百业融合数字技术后的转型实践。NVIDIA认为,数字孪生需要具备四种特征:物理上的准确性与真实性,必须遵守物理定律;不间断的与物理世界进行同步;以精准的时间运行;包括多个自治系统。自创立之初,NVIDIA就致力于对虚拟世界的模拟,并随着AI/ML等技术的发展,构建了基于NVIDIA Omniverse平台的数字孪生,为工业和工程提供了大规模精确模拟。

“随着互连的虚拟世界持续推动下一代人工智能工作负载的发展,NVIDIA从工业和工程的角度来重新审视虚拟世界,从而构建了Omniverse, 创建和模拟与现实世界无法区分的虚拟世界平台,为实现数字孪生模型铺平了道路,并广泛应用于机器人、自动驾驶汽车、智能工厂和气候研究等领域。”NVIDIA网络技术专家崔岩说。

NVIDIA帮助宝马集团构建了未来工厂的数字孪生实践,后者在开工前就在模拟环境中构建了整条生产线和生产流程,以及机械手自动化配置等功能,预先实现了工厂内所需的所有设计和匹配。这一切离不开NVIDIA加速计算的协助。NVIDIA OVX专为通过数据中心进行大规模工业数字孪生提供技术支持,以实时创建和运行非常复杂的模型和逼真的仿真环境,该系统结合了高性能 GPU 加速计算、图形处理和AI并配备了高速存储访问、低延迟网络、精确计时,具备创建逼真数字孪生所需的性能。

作为OVX计算系统的基础构建块,OVX服务器由8颗NVIDIA A40 RTX GPU、3块NVIDIA ConnectX-6 Dx 200Gbps智能网卡、两颗至强白金8362可扩展处理器、1TB系统内存和16TB NVMe存储组成。通过与NVIDIA Omniverse Enterprise相结合,OVX提供了一个完全集成的平台,可针对各种规模的数字孪生转变复杂的工作流程。今年晚些时候,NVIDIA OVX将通过浪潮、联想和超微上市。

NVIDIA OVX服务器

NVIDIA OVX POD是经过NVIDIA验证的计算系统,旨在进一步加速数字孪生的构建和部署。NVIDIA OVX POD包含8至16台OVX服务器,可与网络结构、存储和企业级软件优化组合,为要求严苛的工作负载提供出色的性能。OVX计算系统最多可扩展到32台OVX服务器,即一个可扩展单元,无需额外开销或重新布线。OVX SuperPOD 架构支持部署一个或多个 OVX 可扩展单元,可提供低延迟网络、带宽和计算性能,满足工厂、城市或世界规模的大规模复杂仿真和实时数字孪生的需求。

OVX SuperPOD和OVX POD多服务器计算系统配置了NVIDIA Spectrum-3交换机,所提供的200Gbps以太网网络架构可以把32台OVX服务器与高速网络和高速存储连接起来。在第二代的OVX SuperPOD中,会采用Spectrum-4 400Gbps以太网交换机,以带来更高的吞吐量、更好的服务质量、更高的安全性、更低的功耗和成本,以及纳秒级的计时精度,用于打造更精准、实时性更高的数字孪生基础设施,适用于云和边缘等环境,满足大规模云计算、企业人工智能和模拟仿真性能优化等场景需求。

NVIDIA OVX SuperPOD

NVIDIA Spectrum-4是全球首个400Gbps端到端以太网网络平台。NVIDIA Spectrum-4交换机的交换吞吐量比前几代产品高出四倍,达到51.2Tbps,线速加密带宽为12.8Tbps,包转发速率达到37.6Bpps,提供了64个800Gbps端口,把端口一分为二后支持最高128个400Gbps端口。该平台由NVIDIA Spectrum-4交换机系列、NVIDIA ConnectX-7智能网卡、NVIDIA BlueField-3 DPU和DOCA片上数据中心基础设施软件组成,能够大幅加速大规模云原生应用。与上一代产品相比,其每个端口的带宽提高了两倍,交换机数量减少到十二分之一,功耗降低了40%。

NVIDIA Spectrum-4平台

NVIDIA Spectrum-4以太网交换机集成了交换芯片、网络操作系统和网络运维工具,通过NVIDIA BlueField DPU或NVIDIA ConnectX智能网卡,将NVIDIA DGX、EGX、HGX、OVX计算平台与加速的以太网解决方案有效连接起来。其中,交换芯片是NVIDIA自研的Spectrum ASIC,基于台积电4N制程工艺,包含1000多亿个晶体管,并且经过简化的收发器设计,可以提供更强的高性能交换能力,其上运行着NVIDIA CUMULUS或SONIC网络操作系统来进行交换机的管理和配置。同时,还配有NVIDIA NetQ、NVIDIA Air等运维部署工具。

NVIDIA Spectrum-4 400GbE交换机

NVIDIA NetQ可以采集整个网络的运行情况,在做出相应的验证、故障排除、遥测、网络分析、变更配置或部署调整时,可以进行快速变更验证和部署。NVIDIA Air类似于网络数字孪生,可以在没有设备、没有搭建具体网络的情况下,辅助网络管理员建立孪生网络,简化网络部署。如果在虚拟环境中已经把数百台交换机、服务器、拓扑做了模拟配置,生效了更新的配置,可以通过孪生网络进行验证,之后再从孪生网络应用到物理网络和生产网络,从而大幅减少网络故障等问题,帮助交换机部署节省95%的时间。

具体来说,NVIDIA Spectrum-4交换机的特性主要有三个方面。第一是自适应路由,过去,静态哈希的方式会决定某一个数据流是通过上连链路的哪一条链路进行转发,但如果某一个链路出现拥塞,其他数据要通过时就要等待,并且由于算法问题导致空闲链路无法转发特定数据流,使得排在数据流尾部的数据包,延迟就会大幅提升,甚至会达到2.5倍的延时,让网络性能急剧下降。

相比之下,多链路上传负载均衡支持上传链路端口的选择,更好的利用上连链路的转发资源,减少链路拥塞。同时,BlueField DPU和ConnectX智能网卡也会完成一些无序处理包的排序以供主机使用。引入自适应路由之后,拥塞时的数据流会被分配到空闲链路传输,更好的支持像RoCE和存储上的加速功能,实现高效率的网络架构,降低了延迟,让整体网络性能提升15%。

第二是高效网络大规模加速Omniverse,传统的叶脊结构数据中心架构分为两个层次,一类是机柜置顶交换机,另一类是核心交换机,连接成两层数据中心网络,这也是自适应路由所应用的环境。使用一台Spectrum-4交换机可以实现相当于过去12台交换机的网络能力,管理运维难度更为简化,除了可以节省12倍的物理空间,还带来了10倍的能耗减少和3倍的延迟降低。在第二代Omniverse SuperPOD中,会连接128节点的OVX服务器,网络上的每条链路可以提供400Gbps的高带宽能力。

第三是Spectrum的加密功能,多云的异地部署会引发企业对数据安全的担忧,因此需要在数据中心的两端进行加密。而在Spectrum交换机中,可以实现VXLANSec基于MACsec技术的加密,采用安全DCI隧道,让两个数据中心之间可以通过公共基础设施(经过加密)、Internet和城域网连接,可以满足5G、边缘到数据中心的用例,保障混合云的安全性,为加密流量提供3倍加速,在确保数据可靠性的同时也节省了客户的投资。

Spectrum-4以太网网络平台的另外两个组成部分是ConnectX-7智能网卡和BlueField-3 DPU,其中,ConnectX-7支持10Gbps-400Gbps的多种速率以太网网卡,可以为云、电信、人工智能等企业工作负载提供数据中心规模的硬件加速,加速网络、存储、安全和管理服务,并且包括加速软件定义网络数据包处理(ASAP2)的技术,可以在不消耗主机CPU的条件下提供线速性能,硬件引擎能够通过TLS、IPsec和MACsec在线加密/解密功能卸载和加速安全。同时,可以通过RoCE和GPU Direct存储实现高性能存储和数据访问,并通过RoCE和TCP加速NVMe-oF,为数据中心应用程序和时间敏感型基础设施提供极其准确的时间同步。

NVIDIA BlueField-3 DPU是第三代片上数据中心基础设施,可以支持从云到数据中心,再到边缘构建软件定义、硬件加速的IT基础设施。新一代的DPU具备从应用程序卸载、加速和隔离软件定义网络、存储、安全和管理功能,可以显著提升数据中心的性能、效率、可扩展性和安全性。作为首款400Gbps DPU,显著提高数据中心的性能效率,可扩展性和安全性,BlueField-3的网络带宽和网络管道较上一代增加两倍,主机带宽增加四倍,Arm CPU核的算力提升四倍,内存提升五倍,支持全新数据通路加速。同时,还有着四倍的IPsec加速、两倍的TLS加速和全新的MACsec加速,以及两倍的存储IOPs、两倍的存储加密和全新的NVMe/TCP加速。该芯片集成了DDR5内存控制器和第五代PCIe交换机,支持L2到L4网络加密和专用的加速引擎。

此外,NVIDIA在软件方面提供了专为BlueField DPU打造的DOCA SDK软件框架,可以让开发者在灵活、开放的环境中进行基于DPU的应用程序和服务开发,来调用相应的硬件加速功能。随着DPU的演进,DOCA也会持续向后兼容,同时保持对前代DPU软件的支持,让用户不用经过过多的移动或改造就能应用最新一代的BlueField DPU的平台。

“数据中心的网络必须具备可扩展、低延时和精准时间的特性,数字孪生需要这些能力,随着数字孪生的应用,数据中心可以随着这些应用负载增强扩展能力,低延时则是要提供更高的网络性能保证数字孪生的实时性。”崔岩表示,“NVIDIA Spectrum-4 400Gbps端到端以太网络平台可以在自动驾驶汽车、智能工厂、数字孪生方面提供极致的性能、高级的安全性和强大的功能,来实现大规模、高性能、虚拟化和模拟仿真的应用。”

标签: 千行百业 融合数字技术 转型实践

责任编辑: jkl2