高校微型智算中心解决方案
·背景分析
人工智能大模型的参数量正在以指数级别增长,从千亿级的“大模型”逐渐迈向万亿级的“超大模型”。这一趋势表明,人工智能领域的技术发展正在加速,模型的规模和复杂性也在不断扩大。
随着模型规模的增加,所需的计算资源和存储空间也相应增加,这对硬件设备和基础设施提出了更高的要求。亟需一种高效、可靠、存算分离且具备灵活扩展的存储解决方案来应对这些挑战。
·部署方案
存储内网:存储IO节点和数据节点间数据传输网络。每台存储IO节点提供2个100G RoCE v2端口,每台存储数据节点提供6个100G RoCE v2端口,连接存储内网交换机。
存储外网:存储IO节点和K8S集群、CPU集群、GPU集群节点间数据传输网络。每个节点各提供2个100G RoCE v2端口,连接存储外网交换机。
计算网:GPU节点间高速通信网络,复用存储外网。可选InfiniBand独立组网。
管理网:各个设备管理和监控,复用存储外网。可选千兆独立组网。
网络架构设计
·方案价值
·减少AI训练前的数据准备时间
绿算高性能存储在面对各种来源的海量多模态数据时,可以提供高吞吐和高IOPS能力,从而极大地提升了数据写入速度。帮助AI训练数据收集时间降低了80%,从原来大约10天降到只需2天甚至几个小时。
·提升AI训练集的加载速度
在多模态的海量样本训练中,绿算高性能存储通过NVIDIA的GPU Direct Storage技术,帮助AI训练提升了数据加载速度,将原本需要数月的训练时间缩短到了一周左右。
·保障AI训练持续稳定运行
在万亿级参数的训练调优中,存储系统和算力系统之间的频繁交互可能导致训练的中断。绿算高性能存储通过全冗余的硬件架构,多路径的方式,以及存储网络冗余设计,能够将可靠性提升90%,从而减少因存储故障导致的训练中断。
·降低AI的部署难度
绿算高性能存储系统针对AI训练和推理进行了深度优化,能够与之完美结合。支持混合云(线下与云端)部署模式,可以快速构建AI基础设施环境。
·相关产品
绿算LinePillar FS并行文件系统
·安全高效
元数据节点支持Active-Active的配对方式,实现了元数据在元数据节点之间的相互备份,以确保元数据服务的连续性。支持全局纠删码,存储空间利用率可达90%以上。
·海量小文件优化
支持百亿级文件的统一存储和高效检索。采用创新的小文件 Container(容器)存储技术,将小文件的创建和检索效率提高到了传统存储的十倍以上。
·丰富的访问接口
提供包括文件存储(POSIX、NFS、CIFS)、块存储(iSCSI)、对象存储(S3、Swift)、大数据(HDFS)以及容器存储接口(CSI)在内的全面存储接口协议。
绿算ForinnBase GroundPool 5000 EBOF
ForinnBase GroundPool 5000 EBOF(简称GP5000),通过完美整合当前高速闪存传输协议、采用存储专用ASIC芯片,实现数据协议卸载和封装。具有低延时、低功耗、高吞吐、大容量、易扩展等特点。
全国服务热线
400-998-9418
扫码关注公众号
联系邮箱
ls@luisuantech.com
地址
北京市海淀区西直门北大街甲43号金运大厦A座803室
-
ꁸ 回到顶部
-
ꂅ 400-998-9418
-
ꁗ QQ客服
-
ꀥ 扫码添加客服