一种集成FPGA和DSP芯粒的异构系统级封装
- 分类:新闻资讯
- 作者:
- 来源:
- 发布时间:2024-06-24 16:30
- 访问量:
【概要描述】将多个异构芯粒集成在一起进行封装是一种具有广阔前景且成本效益高的策略,它能够构建出既灵活又可扩展的系统,并且能有效加速多样化的工作负载。在此基础上,我们提出了Arvon,它使用嵌入式多芯片互连桥(EMIBs)将一个14nm FPGA芯粒和两个紧密排列的高性能22nm DSP芯粒集成在了一起。芯粒间通过一个1.536-Tb/s的高级接口总线(AIB)1.0接口和一个7.68-Tb/s的AIB 2.0接口进行互连。Arvon是可编程的,支持从神经网络(NN)到通信信号处理的各种工作负载。每个DSP芯粒在半精度浮点运算中提供了4.14 TFLOPS的峰值性能,同时保持了1.8 TFLOPS/W的能效。我们还开发了一个能够为FPGA和DSP分配工作负载的编译程序,以此来优化系统的性能和资源利用率。我们使用36-µm-pitch微凸块实现的AIB 2.0接口达到了4 Gb/s/pin的数据传输速率,包括适配器在内的能效为0.10–0.46 pJ/b。其Shoreline带宽密度达到 1.024 Tb/s/mm,areal带宽密度达到1.705 Tb/s/mm²。
一种集成FPGA和DSP芯粒的异构系统级封装
【概要描述】将多个异构芯粒集成在一起进行封装是一种具有广阔前景且成本效益高的策略,它能够构建出既灵活又可扩展的系统,并且能有效加速多样化的工作负载。在此基础上,我们提出了Arvon,它使用嵌入式多芯片互连桥(EMIBs)将一个14nm FPGA芯粒和两个紧密排列的高性能22nm DSP芯粒集成在了一起。芯粒间通过一个1.536-Tb/s的高级接口总线(AIB)1.0接口和一个7.68-Tb/s的AIB 2.0接口进行互连。Arvon是可编程的,支持从神经网络(NN)到通信信号处理的各种工作负载。每个DSP芯粒在半精度浮点运算中提供了4.14 TFLOPS的峰值性能,同时保持了1.8 TFLOPS/W的能效。我们还开发了一个能够为FPGA和DSP分配工作负载的编译程序,以此来优化系统的性能和资源利用率。我们使用36-µm-pitch微凸块实现的AIB 2.0接口达到了4 Gb/s/pin的数据传输速率,包括适配器在内的能效为0.10–0.46 pJ/b。其Shoreline带宽密度达到 1.024 Tb/s/mm,areal带宽密度达到1.705 Tb/s/mm²。
- 分类:新闻资讯
- 作者:
- 来源:
- 发布时间:2024-06-24 16:30
- 访问量:
将多个异构芯粒集成在一起进行封装是一种具有广阔前景且成本效益高的策略,它能够构建出既灵活又可扩展的系统,并且能有效加速多样化的工作负载。在此基础上,我们提出了Arvon,它使用嵌入式多芯片互连桥(EMIBs)将一个14nm FPGA芯粒和两个紧密排列的高性能22nm DSP芯粒集成在了一起。芯粒间通过一个1.536-Tb/s的高级接口总线(AIB)1.0接口和一个7.68-Tb/s的AIB 2.0接口进行互连。Arvon是可编程的,支持从神经网络(NN)到通信信号处理的各种工作负载。每个DSP芯粒在半精度浮点运算中提供了4.14 TFLOPS的峰值性能,同时保持了1.8 TFLOPS/W的能效。我们还开发了一个能够为FPGA和DSP分配工作负载的编译程序,以此来优化系统的性能和资源利用率。我们使用36-µm-pitch微凸块实现的AIB 2.0接口达到了4 Gb/s/pin的数据传输速率,包括适配器在内的能效为0.10–0.46 pJ/b。其Shoreline带宽密度达到 1.024 Tb/s/mm,areal带宽密度达到1.705 Tb/s/mm²。
推荐新闻