image.png    
AI智算纳管系统架构
image.png    
AI智算管理系统的功能实现
           
智算纳管
智能算力感知、算力共享与隔离管理、QoS管理、算力作业编排。
           
算力服务化管理
告警事件通过包括短信,邮件,微信,声光提示等在内的各种方式及时通知相关人员。
           
GPU池化管理
实现将裸金属设备纳管并池化至容器集群,通过使用调度优化等技术,成功实现了对各种主流架构的GPU、NPU等算力资源池化和管理。
           
算力运营分析
算力资源分析、资源优化、资源总览。
           
算力调度
调度策略,包括:完全就绪策略、防碎片策略、SLA策略等,智能适配,协同计算。
           
算力观测
从算力设备到训推作业的角色化,指标化监控,包括:GPU卡分配率,使用率,训练作业GPU使用率等。
算力资源总览
提供实时性能展示,AI资源总计总卡时,AI算力占用率。部门资源排名情况,实时资源占用排行,月度作业提交排行,企业月度资源使用排行。为运营决策提供数据支持。
image 45.png    
算力资源可视化分析和展示
提供基于客户维度的资源费用统计、实时资源占用率、累计出账费用占比、有效算力趋势、资源占用趋势和累计出账费用趋势的展示。
image.png        

算力资源池化管理

将裸金属设备纳管并池化至容器集群,通过使用调度优化等技术,成功实现了对各种主流架构的GPU、NPU等算力资源池化和管理
某典型AI智算中心案例
image.png    
下载信息
在线咨询
RightCloud社区版支持
微信扫码