800G光模块白皮书
今天给大家分享一下由800G Pluggable MSA组织发布的一份800G光模块技术白皮书。首先介绍一下该组织:该组织成立于2019年9月5日,旨在促进数据中心运营商与基础设施、设备、光模块,光/电芯片和连接器供应商之间的交流与协作。重点在数据中心网络互连场景,旨在确定最佳的互连体系结构,定义800G可插拔光模块的接口规格,构建 生态系统 并指导行业的健康发展。主要成员包括:
下面,我们就简要分享一下白皮书主要内容。
一、云计算驱动光模块发展
云计算,VR/AR,AI,5G等技术的应用对流量的需求非常大。而流量的爆炸性增长需要更高的带宽。如图1,2017年-2021年,全球互联网带宽容量以48%的年复合增长率增长。
如图2所示,预计2020年400G光模块将商用,2022、2023年2×400G/800G光模块将逐步应用。
数据中心架构的变化和交换芯片容量的发展是同步的,差不多每两年翻一倍,继续延续着“即将终结”的摩尔定律。12.8Tb/s的交换芯片已经商用,25.6Tb/s的芯片也在进行开发(当前已经推出)。如图3所示,容量的快速发展给光互连带来了巨大的压力。光互连密度的增大并不像CMOS那样发展,因为光互连组件各部分缺乏统一设计方法,无法共同形成大规模发展,从而产生各种问题。过去几年,云服务等的快速发展推动了继续直接检测技术和NRZ 100G光模块的快速应用。400G技术研究始于2011年,在2020年开始部署,而在2021年将出现较大的增幅。800GbE(8×100GbE 或2×400GbE)即将出现,用于25.6Tb/s、51.2Tb/s交换机,但速度落后于2021~2022年的市场需求时间。
二、数据中心架构
基于不同的应用,数据中心的架构和流量特征是不一样的。超大规模数据中心比较分散,加之对外部客户提供XaaS等业务,使得数据中心南北流量占据主导。而对于云计算、存储有巨大的需求的运营商,东西流量占据主导。
因此,至少可以形成两种典型的数据中心架构。图4显示了一种超大规模数据中心的典型架构,这种架构通常层与层之间是以一定收敛比变化的,例如3:1。主干层采用ZR互联。在这种情况下,800G网络出现的一个重要标志是服务器到TOR层交换机达到200G时,TOR-Leaf/Spine层不得不使用PSM4 4×200G结构了。
对于典型的超大规模数据中心网络(DCN),部署200G服务器将需要800G带宽。这是一个流量融合网络,取决于服务需求和 资本支出 优化之间的平衡。表1显示了根据DCN层的详细覆盖范围要求。
图5显示了一个AI集群的数据中心网络体系结构,其层数少于超大规模网络,这是因为层和层之间没有任何收敛。这种架构主要用于大流量以及不太频繁的数据交换。
对于AI / HPC 集群DC N,由于没有收敛、汇聚,只有部署400G服务器才需要800G网络互连。表2为详细参数。
对于较小的企业及小型数据中心,服务器和Leaf之间可能并不需要400G的带宽。
三、8×100G解决方案
1、800G SR场景需求
对于短距应用场景,成本是关注的重点,这一类的模块主要是超大规模数据中心运营商选用。MSA的目标是开发一种用于SR场景的低成本8×100G模块,覆盖60~100m的最佳点。
如图6所示,MSA将为基于100G PAM4的单模光纤互连定义低成本PMD规范。另外,对于SR应用低延时的需求,800G MSA光模块中将采用KP4 FEC来实现纠错,其它的DSP算法还包括简单的时钟恢复和均衡。最后,MSA将为PSM8模块指定一个连接器,该连接器可扇出至8x100G。
2、8×100G 技术可行性方案
如上所述,在从400G-SR8到800G-SR8的演进中,单通道100G的速率可能会限制基于多模光纤(MMF)的解决方案。根据IEEE中使用的理论模型,我们可以估算出,当 波特率 高达50G时,MMF可以支持的传输距离不超过50m(参见表3)。限制因素来自VCSEL的调制带宽和MMF的模间色散。通过对器件,光纤介质以及增强的DSP算法进行优化,可以以更高的成本,更高的延时和更大的功耗为代价实现100m传输。因此,MSA 可插拔800G光模块工作组推荐采用单模传输技术来实现800G-SR8场景互连。
为了保证基于单模光纤SMF的解决方案在成本和功耗方面的优势,在800G-SR8中需要定义合理的PMD标准要求。应确保:1)可以应用多种发射机技术,例如DML,EML和硅光(SiPh)。2)可以充分释放组件的所有潜力,以实现目标链接性能;3)在保持可靠链路性能的情况下,应尽可能放松PMD层中的关键参数。根据这三个原则,后面进行了实验研究。
基于SMF的800G-SR8解决方案的功率预算与IEEE 400G-SR8中定义的非常相似。唯一要确定的问题是新定义的PSM8 SMF连接器的插损。这意味着,基于目前成熟的光电器件以及400GE光互连中使用的DSP芯片,可以轻松实现SR场景中的功率预算。因此,除了为PSM8模块指定连接器之外,在800 SR8场景中定义PMD参数的关键问题是找出合适的发射机光调制幅度(OMA),消光比(ER),发射机眼图闭合代价( TDECQ)和接收器的灵敏度。为了将这些参数设置在合适的位置,研究并评估了各种发射机的 误码率 (BER)性能,如图7所示。
图7显示了100Gbps PAM4信号的三个BER与OMA曲线,它们分别对应于不同的发射机技术,并使用商用400G DSP芯片获得。实际上,图7(a)和(b)所示的EML和SiPh每通道100G的BER性能是显而易见的结果,这两种解决方案在过去的几年中已得到广泛讨论。考虑到SiPh发射机的发射光功率相对较低以及所有三种解决方案都具有足够高的灵敏度,建议适当放宽800G-SR8中的最低OMA要求。
图7(c)中DML的BER性能表明,尽管此处使用的商用DML的带宽比EML和SiPh相对低,但这种情况下的OMA灵敏度与EML或SiPh的情况相当。该结果表明,实践中使用的商用DSP芯片比400GE中定义的参考接收机具有更强的均衡能力,因此,它可以支持具有较低带宽的发送器,以实现800G-SR所需的目标功耗。为了充分释放DSP单元用于800G SR8 PMD的潜力,需要重新定义用于一致性测试的参考接收机(即TDECQ),以匹配商用DSP的实际均衡能力,即,与当前定义的5个抽头相比,抽头数更多是理想的。同时,考虑到SR场景对灵敏度的要求相对较低以及800G模块功耗的限制,未来的模块推荐采用低复杂度的DSP模式,ER的另一个关键参数与功耗直接相关。较低的ER是有利的,只要它不影响链路的可靠性即可。基于以上分析,我们认为基于低成本和 功耗SM F的解决方案在800G-SR8方案中是可行且有希望的。
四、4×200G FR解决方案
1、800G FR需求分析
单通道200G PAM4技术是光强度调制,直接检测互连的下一个主要技术步骤,它将成为4通道800G连接的基础,并且是未来1.6Tb / s互连的基本组成部分。 如图8所示,MSA将定义完整的PMD和部分PMA层,包括新的低功耗,低延迟FEC方案作为112G电输入信号的KP4 FEC之上的封装,以提高净编码增益 (NCG)的 调制解调器 。 该行业联盟的主要目标之一是为发射机和接收机组件开发新的宽带电、光模拟组件,其中包括 数模转换器 和模数(AD / DA)转换器。 为了实现可插拔模块的严格功耗要求,将在CMOS工艺中设计具有较低nm数的DSP芯片,并采用低功率信号处理算法来实现通道均衡
2、4×200G方案技术可行性
考虑到LAN WDM中需要TEC进行温度控制,而单通道200G方案中希望不要温控措施,因此将基于CWDM4分析功耗。链路插入损耗,多径干扰(MPI),差分群时延(DGD)和发射机色散损失(TDP)是对链路功耗的贡献。根据IEEE标准发布的模型,MPI和DGD损失的计算如表4所示。考虑到单通道200G的波特率增加, 色散损失 预计将比单通道100G的更大。发射机色散损失(TDP)的合理建议是3.9 dB。因此,考虑到接收机老化和耦合损耗的余量,以及发射机的典型发射光功率值,我们认为所需的接收机灵敏度应约为-5dBm。
与单通道100G相比,由于波特率加倍,SNR下降约3 dB,因此,为了保持合理的接收器灵敏度(〜-5dBm)和误差裕量,需要更强大的FEC。因此,如上所述,在KP4的之上,包裹一层低延时,低复杂度的FEC。根据链路性能和功率预算要求确定新FEC的阈值。
通过仿真和实验给出了单通道200G的链路性能。表5中列出了该链路中采用的器件的参数。实验结果表明,在将新FEC的阈值设置为2e-3的情况下,接收器灵敏度可以达到目标值,如图9(a)所示。但是,在该实验中,需要最大似然序列估计(MLSE)来补偿由于信道带宽限制而引起的过多符号间干扰。图9(a)中的虚线显示了基于模型的仿真,其中采用了实验中使用的设备的测量参数。连同实验结果一起,仿真表明该系统受到组件(例如AD / DA,驱动器和E / O 调制器 )带宽的限制。考虑到高带宽组件有望在未来几年内可用,图9(b)中说明了使用相同系统模型但具有扩展带宽的仿真结果,表明在DSP中仅采用前向均衡算法(FFE)就可以在Pre FEC BER=2e-3时满足相应的灵敏度要求,结果如图4(b),这与理论期望是相符的。
基于以上分析,在800G-FR4方案的遵从性测试中仍建议遵循TDECQ。但是,预计在TDECQ测量中采用的参考接收机的FFE抽头数将增加到一个合理的值,需要进一步讨论。此外,应该注意的是,如果将来针对100Gbaud的器件的性能不如我们的预期,则在FR4方案中可能会使用更复杂的算法(例如MLSE),这意味着必须开发新的遵从性度量标准。
3、4×200G 封装技术
对于4x200G模块,需要重新考虑发送机和接收机的封装,以确保高速信号在 Nyquist频率 范围内(即56GHz)考虑信号的完整性。图10说明了发射机的两种可能解决方案。解决方案A是传统方法,其中调制器驱动器(DRV)靠近调制器。相比之下,在解决方案B中,采用倒装芯片设计的DRV与DSP单元共同封装,以优化RF传输线上的信号完整性。这两种解决方案都可以通过最新技术来实现。初步仿真表明,解决方案B可以获得良好的结果,并且可以确保带宽大于56GHz。解决方案A的S21曲线上的波纹是由于DRV输入上的反射引起的,可以通过DRV的匹配设计进行优化。最终,有望进一步提高解决方案A的整体性能。
在接收端,需要使用寄生电容较小的高带宽 光电二极管 (PD)和高带宽跨阻放大器(TIA),以确保接收器的带宽性能。通过最新的半导体技术实现这些组件没有任何障碍。据我们所知,一些行业的利益相关者已经在开发这些组件方面付出了很多努力,这些组件有望在1到2年内上市。另一方面,PD和TIA之间的连接也很关键。连接中的寄生效应总是会降低性能,因此应仔细分析和优化。
4、单通道200G中的前向纠错编码(FEC)
为了达到200G PAM接收器的灵敏度要求,需要具有2e-3阈值性能的更强FEC。图11说明了终止方案和串联方案之间的比较。第一种选择是不采用KP4,并用开销更大的新FEC代替。端接在NCG和开销方面具有优势。在第二个选项中, 级联方案 将KP4保留为外层代码,并将其与新的内层代码组合。级联在延迟和功耗方面具有优势,并且更适合于800G-FR4应用场景。
图12所示的KP4和代数码的串行级联是一种简单的解决方案,可实现2e-3 BER阈值性能,并最大程度地降低功耗和端到端延迟,因为KP4没有终止。C2M电接口中引入的误码率pe <1E-5的噪声对PMA是透明的。pe不会使级联方案的整体性能下降,因为pe远低于KP4的解码阈值。具有单纠错能力的 汉明码 和具有双纠错能力的BCH码是该级联方案中代数码的良好候选者。这两个内部代码候选的开销约为6%。借助约64种测试模式的简单软硬硬(SIHO)大通解码算法,汉明码和BCH码均可实现比2E-3更好的BER阈值。400GBASE-R中定义的符号分布本质上是一个交织器,因此可以用作交织器(πe)。具有约10k比特延迟的交织器(πo)足以将光纤中引入的噪声去相关。
五、800G DR可能的解决方案
如表6所示,在800 DR场景中,有四种可能的路径。首先,可以定义800G MSA中定义的800G SR8解决方案,以将覆盖范围扩展到500m。由于并行光纤解决方案需要更多的光纤通道,因此这种情况下主要要考虑的是高达500m的光纤成本。其次,2x400G CWDM4解决方案利用可用的FR4解决方案,使发送机和接收机对增加一倍。该解决方案似乎是光纤资源和技术成熟度之间的平衡。但是,功耗和模块成本是其主要限制。第三,下一代单通道200G解决方案可能会覆盖这种情况。该解决方案被认为是只有4对发送器和接收器的最低成本和功耗。至于该解决方案的可用时间,仍然需要可行性论证和工业成熟度考虑。总而言之,针对DR用例讨论了几种解决方案。MSA将跟踪技术发展,并在将来针对此应用提出建议。
六、总结和展望
总之,将在800G可插拔MSA中首先定义两个方案,即800G-SR8和800G-FR4。在SR8场景中,为了考虑更多技术先进性,从而获得具有竞争力的SMF的解决方案,我们考虑调整PMD层中的一些关键参数。因此,将放宽OMA和ER的功耗,并重新定义TDECQ测量中使用的参考接收机。我们还演示了800G-FR4应用中单通道200G光传输的技术可行性。实验和仿真表明,应在光模块中添加低功率,低延迟的FEC子层,以实现目标功率预算。新的FEC的详细信息将在800G-FR4标准规范中进行介绍,以确保互操作性。同时,组件的带宽改善和包装设计的优化是另外两个需要彻底研究的问题。
800G可插拔MSA的目标是在2020年Q4发布首个规范,已经对MSA中的几个子组件进行了原型设计,首批800G模块有望在2021年提供样品。随着400GbE一代准备在市场上推出,800G可插拔模块已准备就绪。将利用这一新的生态系统,为下一代25.6T和51.2T交换机提供更高密度和成本优化的单通道100G和单通道200G互连。
展望800G到1.6T,业界开始看到可插拔模块的可能限制。使用传统的PCB,用于C2M互连的SerDes不可能扩展到单通道200G,这可能需要使模拟电子设备和光学器件更接近交换ASIC。但是,无论是通向共封装的光学器件,板载光学器件还是可插拔器件的演进,我们都认为该MSA中定义的单通道200G互连将成为800G和1.6T互连一代的重要组成部分。