
資源池管理
通過多種異構(gòu)算力資源的統(tǒng)一調(diào)度和管理、RDMA網(wǎng)絡(luò)監(jiān)控、GPU資源監(jiān)控及多租戶隊列的資源分配調(diào)度與任務(wù)調(diào)度,實(shí)現(xiàn)算力網(wǎng)絡(luò)全棧智能管理

在線/遠(yuǎn)程開發(fā)
提供云端集成開發(fā)環(huán)境并支持Jupyter Notebook與VSCode兩種開發(fā)模式,支持VPC內(nèi)網(wǎng)或公網(wǎng)方式進(jìn)行SSH遠(yuǎn)程連接開發(fā)環(huán)境

自定義鏡像構(gòu)建
使用平臺預(yù)置或自定義鏡像進(jìn)行模型開發(fā)與鏡像構(gòu)建,支持開發(fā)機(jī)環(huán)境備份與恢復(fù)

RDMA網(wǎng)絡(luò)拓?fù)涓兄{(diào)度
基于GPU和RDMA網(wǎng)絡(luò)拓?fù)湫畔?yōu)化任務(wù)調(diào)度,將同一分布式訓(xùn)練任務(wù)的多個pod調(diào)度到拓?fù)渚嚯x最近的節(jié)點(diǎn)和網(wǎng)卡上,降低跨節(jié)點(diǎn)通信延遲

GPU故障感知與自愈
開啟自愈組件和任務(wù)維度自愈配置后,在檢測到GPU資源異常時進(jìn)行任務(wù)重調(diào)度,有效減少因GPU故障帶來的任務(wù)中斷,提升GPU有效訓(xùn)練時長

分布式訓(xùn)練
支持大規(guī)模多機(jī)多卡分布式訓(xùn)練,兼容Megatron、DeepSpeed、PyTorch、TensorFlow等主流訓(xùn)練框架,并提供任務(wù)可觀測能力,結(jié)合監(jiān)控面板、日志服務(wù)及Tensorboard實(shí)現(xiàn)訓(xùn)練任務(wù)分析

模型在線服務(wù)
支持使用內(nèi)置大模型或自定義鏡像部署模型在線服務(wù),提供在線調(diào)試功能,并支持通過WebUI模式直接調(diào)用在線服務(wù)接口

資產(chǎn)管理
集成存儲配置、模型管理和鏡像管理三大模塊,支持對接高性能文件存儲/對象存儲并實(shí)現(xiàn)統(tǒng)一權(quán)限控制,提供團(tuán)隊模型共享及在線服務(wù)關(guān)聯(lián)功能,同時支持KCR鏡像倉庫對接與自定義鏡像可見性管理