
事件驱动、脉冲神经网络、存算一体——在匹配任务上能效远超 GPU 的类脑计算芯片与系统。
不是另一种
GPU。是大脑。
BPU(Brain Processing Unit)指脉冲 / 事件驱动的类脑计算芯片与系统。它的核心目标是以硬件原生支持 SNN 的神经元更新、突触事件传播与事件路由调度,通过异步 AER(Address-Event Representation)通信机制,把大量简单的神经元-突触-路由单元构造成可扩展的类脑计算系统。
TrueNorth、Loihi 以及更近期的晶圆级类脑系统都属于这类代表。在与其范式匹配的任务上——事件流、稀疏时序信号、在线学习——BPU 的能效远超传统 GPU。
只对实际发生的脉冲做计算
跳过无效的密集 MAC 扫描
避免搬数据比算数据更耗能
如果把「计算效率」理解为单位能耗可完成的有效任务量,BPU 在与其范式匹配的任务上通常明显优于 GPU。
效率高低取决于任务是否能表达为稀疏事件驱动的 SNN,并能被 BPU 的神经元 / 突触模型高效映射。
从 PCIe 加速卡到晶圆级服务器——根据你的任务规模选择合适的 BPU 产品形态。
单卡或少量 BPU 芯片封装成板卡 / 开发平台,通过 PCIe 挂到主机上。易于融入现有服务器工作流,调试和量产门槛低。
BPU 芯粒模组化封装,可灵活集成到各类计算平台中,提供更高密度的类脑计算能力。
晶圆级类脑计算系统,在晶圆内短距高密度互连,大规模事件通信、全局同步与能效优势明显。适合脑规模 SNN 推理与仿真。
原型开发、小规模应用。易于融入现有工作流。
中等规模应用。灵活集成,按需组合。
超大规模脑仿真和研究。亿级神经元,接近生物能效。
突破性的晶圆级类脑计算系统——在整片晶圆上互连成统一的事件驱动计算网络。
BPU 晶圆级计算指把大量类脑芯片(或芯粒)在整片晶圆上互连成一个统一的事件驱动系统。晶圆内运行的计算本质上仍是 SNN 的神经元状态更新与突触事件传播,只是规模被提升到「晶圆级神经元-突触总量」。事件在晶圆内以 AER 等异步方式高速传递,同时用分层时间步或 GALS 同步机制保证跨芯粒 / 跨区域的时序一致性。
晶圆内短距高密度互连替代 PCB 级长距互连,显著降低带宽、延迟和能耗的数量级惩罚。
使得大规模 SNN 和脑仿真在能耗-时延上更接近生物系统的效率区间。
事件在晶圆内以 AER 等异步方式高速传递,配合 GALS 同步机制保证时序一致性。
支持更接近脑规模的并行脉冲计算与仿真,亿级神经元并行处理。
BPU 最适合那些输入本身是事件流或可自然稀疏化、并且决策强依赖时间结构的场景。
大规模神经科学脑回路仿真,支持亿级神经元并行处理。
基于事件的视觉感知处理,超低延迟实时响应。
超低延迟实时控制与在线学习,适合 IoT 和嵌入式场景。
雷达 / 声呐 / 触觉传感器集成,多模态事件流统一处理。
共同点:对低延迟、低功耗、稀疏时序处理或在线可塑性有强需求。
自研LYRArc-II存算融合处理架构,支持BI-Link类脑计算卡互连扩展,支持全范围神经元连接,支持可变计算精度(FP32/FP16/INT8),具有高灵活度、高处理能效、高互连带宽和超低通信延时等优势。

自研LYRArc-II存算融合处理架构,自研计算、供电、散热、互连一体化组装集成技术,支持BI-Link系统级扩展互连,支持可变计算精度(FP32/FP16/INT8)。
支持 4 亿以上神经元模拟计算

自研超高算力密度整机集成技术(4U 16张LBM212 BPU加速卡),自研类脑血管相变液冷技术,支持BI-Link类脑计算卡互连,支持可变计算精度(FP32/FP16/INT8),运行噪音低于65dB。
4U 空间集成 16 张 LBM212 加速卡,超高算力密度
