硬科技｜如何破解AI大算力困局？

光明网 • 2023年11月29日下午3:36 • 人工智能 • 阅读 10830

大模型掀起了新一轮算力狂飙算力已成为AI发展的瓶颈单颗AI芯片无法继续为大模型提供充足的计算和存储资源尽管目前大模型参数达到了1万亿规模但距离人脑约1000万亿个参数的规模相比仍然存在较大差距！在“国传路演”活动中，超动力（北京）科技有限公司CTO李斌介绍了超动力算网一体架构的AI小超算服务器。超动力小超算是全新一代的AI服务器，采用颠覆性的算网一体超算架构，专为大模型推理而设计。一台耗电不到300瓦的服务器即可轻松运行与ChatGPT规模相当的大模型，充分释放人工智能的无限潜能。此项目通过创新的体系结构和底层技术，实现了AI计算设备的运行能耗和建造成本的显著降低。核心思想是将超级计算的体系结构和无损以太网通信技术引入AI服务器内部，通过无损以太网构建并行计算集群，实现高效的集合通信。这样的创新突破了传统服务器冯诺依曼架构面临的功耗墙问题，实现了从以计算为中心的传统架构向以数据为中心的下一代架构的跨越。非常适合AI大模型的高度并行和数据密集型计算需求，有望从根本上解决AI大算力的困局。此项目通过算网一体控制器，将各种类型的AI模型自动分拆到集群中的多个计算节点上并行执行，使得计算+通信的总和时间最小化，从而成倍地降低AI模型的推理时延。通过嵌入式AI技术，包括模型剪裁、压缩、算子融合和内存优化等，单个计算节点的效能提升了10倍以上，从而大幅度降低设备的成本和能耗。采用高性能以太网取代传统AI服务器中的PCIe通信，项目显著扩展了计算节点间的通信带宽，计算节点之间可以直接通过共享内存和RoCE协议进行通信，减少了因数据多次缓存导致的传送时延，提高了并行计算的加速比，同时有效降低了设备的成本和能耗。通过以上一系列创新，为AI上层应用，特别是大模型的普及奠定坚实的基础。来源：光明网