跳至主要内容

可靠性测试:确保数据中心准确性和性能的关键

作者:Vivek Shah
新产品开发总监

云计算、物联网的发展以及移动设备在日常生活中的普及使得具有创新性的高效率的数据中心的必要性超过了以往任何时候。如何确保当今日益复杂的数据中心具有敏捷性、适应性、分布式、高效性和智能性,这是我们这个时代的挑战。然而,要在这些近乎科幻小说的高温高速运行结构中实现并保持最高水平的准确性和性能,就必须认真考虑通常不被重视但却至关重要的测试工作。

数据中心测试是确保最佳性能的唯一途径,但这留下了一个问题:我们究竟需要测试什么? 数据中心内的单个设备通常要在更广泛的环境中正常工作,例如,它们可能会暴露在更宽的温度范围内。这些设备的认证水平与数据中心机柜内的产品截然不同,因为后者不会暴露在极端环境中。  

设计用于数据中心的产品负责为整个站点提供最高的可靠性,因为它们需要在几乎没有延迟的前提下发送和接收数据,并能够在芯片与芯片之间、机柜与机柜之间以及交换机与交换机之间成功地传输这些“1”和“0”。  与此同时,它们还需要避免停机和优化数据中心容量。我们需要这些高度可靠的产品,以避免机架无法使用或使用效率低下,并确保数据和信号的完整性,以接近实时的速度无延迟地传输数据。简而言之,连接器和电缆组件的可靠性对于数据中心的性能也具有至关重要的作用。

数据中心故障的高昂成本

数据中心的可靠性在于运行时间和低延迟,因此在设计这些产品时,追求的目标是长期的可靠性和效率。能够依赖每根线缆的稳定性能是理所当然的,但是问题在于,最终用户可以从中得到什么好处? 证明测试的好处,有个最简单的方法,就是看到未经测试或测试不到位的产品对操作员效率的影响。

例如,倘若设计一个装在服务器交换机内的产品,但测试不到位,接入大量服务器之后才发现了间歇性问题,那么要更换或修理安装好的组件或机架,就会带来巨大的成本,不仅是停机时间的成本,而且还包括人力成本。工作原则规定,工程师们只能在“热通道”内工作 15 分钟,并且根据工作/休息时间的规定,工程师们至少需要一个小时来休息恢复。如果这种情况发生在一个有多达 5,000 个机架的站点,就对运行时间会造成极大影响。对技能熟练的操作人员而言,他们本应该把时间花在提高容量上,但最后却被迫分神,转而处理这些在安装之前就早该解决的问题。

Open19 Project 是一个创新倡议,专注于为数据中心和边缘硬件提供开放硬件平台,改善数据中心的运转效率。该倡议的核心理念是提高硬件的互操作性。通过发展硬件标准,使计算、储存和网络制造商有能力打造差异化的硬件解决方案,同时保护自己富有竞争力的知识产权。 更加标准化的方法,比如 Open 19 倡议下提出的方法,通常会重点关注快速更换和启动时间。相比传统电缆,使用更创新的方法可以将耗时从大约 6 小时缩短至 75 分钟左右。

能够进行横向思考,而不只是关注狭窄的产品方向,推动了进一步研究,人们开始关注液冷系统在 112 Gbps 速率下可能带来的好处。这些创新解决方案更加凸显出可靠的产品性能的重要性。

此外,尽管整个通信市场都在追求更大带宽,但是下一次数据速率跃升时,客户可能在冷却系统上遇到经济难题。有前瞻性思维的人也在寻找可能的方式,以替换其系统内的大部分 PCBA 结构,包括服务器侧和交换机,从而提高系统设计的模块性和灵活度。这种方法可能包括移除一些阻碍空气流动的材料,扩大可用的技术范围,例如实施 Bipass 来缓解发热问题。

有组织采用了“cooler is better”方法,并报告称,总体上,该方法使得每个机架的能源消耗整整节省了 25%。要是在一个有 10,000 个机架的数据中心,这就能显著节省能源消耗,每年的节省可能达百万计!

为最佳的信号完整度而设计

数据中心集成了无数电路和组件接口。在这一环境下,阻抗的变化或不匹配会影响电气性能。这就意味着,制造必须保持在在规定的公差范围内,才能持续生产出运转良好的产品。

如何实现这一点? Molex莫仕正在不断创新用于定期制造产品的过程、协议和材料。这都是为了降低产品设计的复杂程度,同时遵循严格规定的公差。

当一个芯片向另一个盒子里的芯片发送一个二进制数据时,接收芯片必须清晰理解数据内容。之后的测试就可以保证产品在规定公差内正常工作。这一过程确保产品的性能能够始终达到客户的要求,不管是每一个零件还是每一个批次。并且,测试可以确保产品出现丢包和间歇性的问题,这些问题可能会中断信号传输。

处理越来越多的数据

随着以太网端和服务器内部(服务器处于网络交换机和服务器空间之间)的带宽提高,芯片变得更加强大,有两种不同的设备在推动数据速率。需要更高的处理能力,才能在更短时间内处理更多的数据。这也意味着信号传输和吞吐量的提高,提升了运行高速网络和应用所需的性能。

要成功传输这些加速数据流,连接器是基本组件,无论是电缆、PCB 还是处于处理器和通道末端之间路径的特定连接器。目标是确保在这些基本组件之间实现平稳的过渡,通过连接器和电缆,一直到接收 (RX) 端。

反过来,这也对创新互连的专家提出了极高的要求,他们需要非常精准地处理和遵守众多因素的复杂情况,包括确保产品的微小机械公差范围。在数据中心里,机械变化最终意味着电气变化。

从整体上看数据中心,人们会产生一些重要的思考。如果出现数据连续性问题,那会怎么样? 从质量角度而言,越来越多的零件、产品、线缆和开关逐渐建入机架,如果按下一个开关导致突然出现间歇性问题或某种信号丢失问题,那么整个数据中心会怎么样?

现实中如果出现这一情形,通常就需要替换损坏的服务器和开关,进入热通道重新插拔电缆,然后再次测试机架。显然,如果技术人员被迫把宝贵的时间花在热通道内,而不是在安装设备、将新的资产和容量投入运行时,那么数据中心的生产力就会大受影响。

宝贵的经验教训

要避免上述情形,就需要连接产品的一致性。对行业进行基准测试后,已经清晰定义了由电气不一致性引发的诸多问题,有助于找到前进的方向。

在制造这些关键产品方面,创新从未显得如此重要。Molex莫仕积极进行数字化转型,带来了一项全球制造战略,提供了一致性,尤其是微型组件的一致性,同时冷却元件也能发挥作用。公司多年来的大规模投资提供了精细调整的流程和资源,在实现产量和一致性的同时实施自动化生产。

现实而言,连接性带来了完整度,尤其是信号完整度和电源完整性。如果能够保持数据中心的完整性,就能在各种复杂系统中保持性能表现。

要确保数据中心安全、有效的解决方案,只有通过进行全面测试,包括对每个电缆组件的每一对信号进行测试,才能实现一致的行业领先的质量控制。这样客户就可以充分信赖每条线缆的性能及其一致性。

经过这样严苛的测试后,客户就无需亲自再进行此类测试。这不只是时间和费用的问题,更是复杂的技术问题,包括光缆连接和终端的问题都可以留给专家解决,留给 Molex莫仕不断积累卓越连接经验的工程师们。 

这样有什么好处? 这样就能有效管理实施,实现即时安装的同时消除之后排除故障电缆的风险,同时优化了正常运行时间,为客户节省时间和金钱,加快了上市时间和投资回报时间。