KingsoftCloud Starflow Platform

星流平臺

為機(jī)器學(xué)習(xí)場景開發(fā)者和運(yùn)維人員提供云原生AI算力和全流程管理能力

立即購買查看文檔

推薦購買

核心優(yōu)勢

產(chǎn)品特性

應(yīng)用場景

產(chǎn)品迭代

核心優(yōu)勢

一站式全流程管理能力

提供從模型開發(fā)、訓(xùn)練到推理的完整生命周期管理，打通基礎(chǔ)資源調(diào)度、算力優(yōu)化、任務(wù)編排、權(quán)限管控全鏈路，降低多模塊協(xié)同復(fù)雜度，實(shí)現(xiàn)“開箱即用”的AI開發(fā)體驗(yàn)

異構(gòu)資源高效調(diào)度

通過動態(tài)任務(wù)編排算法與算力管理工具，智能匹配異構(gòu)算力資源與任務(wù)需求，保障GPU資源利用率，顯著降低算力閑置成本

高性能存儲與網(wǎng)絡(luò)加速

集成分布式存儲系統(tǒng)與高速RDMA網(wǎng)絡(luò)架構(gòu)，實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)高速提取、模型參數(shù)高吞吐傳輸，支撐大規(guī)模分布式訓(xùn)練任務(wù)并行效率提升

任務(wù)全生命周期可觀測

任務(wù)級可觀測能力覆蓋開發(fā)、訓(xùn)練、推理全流程，結(jié)合監(jiān)控、日志、事件信息及硬件維度監(jiān)控指標(biāo)，快速定位異常點(diǎn)，縮短排障時間

智能運(yùn)維保障穩(wěn)定性

GPU故障自愈技術(shù)結(jié)合任務(wù)可觀測性設(shè)計，實(shí)時監(jiān)控硬件健康狀態(tài)與任務(wù)進(jìn)程，自動觸發(fā)故障遷移與任務(wù)重調(diào)度，降低算力中斷風(fēng)險，保障長周期訓(xùn)練任務(wù)穩(wěn)定運(yùn)行

企業(yè)級安全管控體系

深度整合資產(chǎn)權(quán)限管理與訪問控制體系，提供細(xì)粒度角色權(quán)限控制、任務(wù)隔離及資產(chǎn)隔離功能，滿足多用戶權(quán)限控制場景的合規(guī)性要求

產(chǎn)品特性

資源池管理

通過多種異構(gòu)算力資源的統(tǒng)一調(diào)度和管理、RDMA網(wǎng)絡(luò)監(jiān)控、GPU資源監(jiān)控及多租戶隊列的資源分配調(diào)度與任務(wù)調(diào)度，實(shí)現(xiàn)算力網(wǎng)絡(luò)全棧智能管理

在線/遠(yuǎn)程開發(fā)

提供云端集成開發(fā)環(huán)境并支持Jupyter Notebook與VSCode兩種開發(fā)模式，支持VPC內(nèi)網(wǎng)或公網(wǎng)方式進(jìn)行SSH遠(yuǎn)程連接開發(fā)環(huán)境

自定義鏡像構(gòu)建

使用平臺預(yù)置或自定義鏡像進(jìn)行模型開發(fā)與鏡像構(gòu)建，支持開發(fā)機(jī)環(huán)境備份與恢復(fù)

RDMA網(wǎng)絡(luò)拓?fù)涓兄{(diào)度

基于GPU和RDMA網(wǎng)絡(luò)拓?fù)湫畔?yōu)化任務(wù)調(diào)度，將同一分布式訓(xùn)練任務(wù)的多個pod調(diào)度到拓?fù)渚嚯x最近的節(jié)點(diǎn)和網(wǎng)卡上，降低跨節(jié)點(diǎn)通信延遲

GPU故障感知與自愈

開啟自愈組件和任務(wù)維度自愈配置后，在檢測到GPU資源異常時進(jìn)行任務(wù)重調(diào)度，有效減少因GPU故障帶來的任務(wù)中斷，提升GPU有效訓(xùn)練時長

分布式訓(xùn)練

支持大規(guī)模多機(jī)多卡分布式訓(xùn)練，兼容Megatron、DeepSpeed、PyTorch、TensorFlow等主流訓(xùn)練框架，并提供任務(wù)可觀測能力，結(jié)合監(jiān)控面板、日志服務(wù)及Tensorboard實(shí)現(xiàn)訓(xùn)練任務(wù)分析

模型在線服務(wù)

支持使用內(nèi)置大模型或自定義鏡像部署模型在線服務(wù)，提供在線調(diào)試功能，并支持通過WebUI模式直接調(diào)用在線服務(wù)接口

資產(chǎn)管理

集成存儲配置、模型管理和鏡像管理三大模塊，支持對接高性能文件存儲/對象存儲并實(shí)現(xiàn)統(tǒng)一權(quán)限控制，提供團(tuán)隊模型共享及在線服務(wù)關(guān)聯(lián)功能，同時支持KCR鏡像倉庫對接與自定義鏡像可見性管理

應(yīng)用場景

模型開發(fā)與訓(xùn)練

高并發(fā)模型在線服務(wù)

業(yè)務(wù)痛點(diǎn)及需求

海量數(shù)據(jù)讀取慢、跨節(jié)點(diǎn)通信延遲高、異構(gòu)算力調(diào)度難

優(yōu)勢1

集成KPFS高性能文件存儲系統(tǒng)，顯著提升海量訓(xùn)練數(shù)據(jù)的讀取效率，支持高吞吐、低延遲的數(shù)據(jù)訪問，減少分布式訓(xùn)練中數(shù)據(jù)加載的瓶頸問題

優(yōu)勢2

采用RDMA高速網(wǎng)絡(luò)架構(gòu)，結(jié)合網(wǎng)絡(luò)拓?fù)涓兄{(diào)度技術(shù)，將同一分布式訓(xùn)練任務(wù)的多個計算單元調(diào)度至物理拓?fù)湎噜徆?jié)點(diǎn)，降低跨節(jié)點(diǎn)通信延遲，提升分布式訓(xùn)練效率

優(yōu)勢3

基于動態(tài)資源編排算法，智能分析任務(wù)算力需求，自動匹配異構(gòu)資源池中的空閑資源，支持任務(wù)優(yōu)先級調(diào)度與隊列搶占機(jī)制，實(shí)現(xiàn)集群資源利用率最大化

建議搭配產(chǎn)品

文件存儲KPFS

對象存儲

容器鏡像服務(wù)

業(yè)務(wù)痛點(diǎn)及需求

企業(yè)模型選擇受限和自運(yùn)維成本高、單機(jī)算力不足和高并發(fā)請求延遲、服務(wù)單點(diǎn)故障和任務(wù)排隊

優(yōu)勢1

提供開箱即用的預(yù)置大模型（如DeepSeek R1/V3、GLM、Qwen3、小米MIMO、KiMi等)，支持用戶基于自定義鏡像快速部署自定義模型，滿足企業(yè)對多樣化模型選擇的業(yè)務(wù)需求

優(yōu)勢2

針對單機(jī)算力瓶頸問題，平臺支持大模型跨機(jī)部署，結(jié)合多副本負(fù)載均衡技術(shù)，自動根據(jù)并發(fā)請求彈性擴(kuò)縮容實(shí)例，確保高并發(fā)場景下服務(wù)高速響應(yīng)，同時通過多副本冗余部署設(shè)計消除單點(diǎn)故障風(fēng)險

優(yōu)勢3

提供WebUI和API調(diào)試工具，支持在服務(wù)正式發(fā)布前驗(yàn)證模型推理邏輯與性能，確保服務(wù)高穩(wěn)定與低延遲

建議搭配產(chǎn)品

容器鏡像服務(wù)

虛擬私有網(wǎng)絡(luò)

產(chǎn)品迭代

2025-06-11

新功能

日韩午夜精品一区|久久久久久久久九|9999久久精品|亚洲视频在线伊人|区区区区区区亚洲|婷婷五日丁香在线|欧美理伦一区二区|日韩精品九区AV|超碰人人操东京热|亚洲AV第六五区

KingsoftCloud Starflow Platform

星流平臺

推薦購買

高效型SE9（8核32G）

高效型SE9（16核64G）

高效型SE9（32核128G）

高效型SE9（64核128G）

高效型SE9（128核256G）

高效型SE9（256核512G）

核心優(yōu)勢

一站式全流程管理能力

異構(gòu)資源高效調(diào)度

高性能存儲與網(wǎng)絡(luò)加速

任務(wù)全生命周期可觀測

智能運(yùn)維保障穩(wěn)定性

企業(yè)級安全管控體系

產(chǎn)品特性

資源池管理

在線/遠(yuǎn)程開發(fā)

自定義鏡像構(gòu)建

RDMA網(wǎng)絡(luò)拓?fù)涓兄{(diào)度

GPU故障感知與自愈

分布式訓(xùn)練

模型在線服務(wù)

資產(chǎn)管理

應(yīng)用場景

模型開發(fā)與訓(xùn)練

高并發(fā)模型在線服務(wù)

業(yè)務(wù)痛點(diǎn)及需求

優(yōu)勢1

優(yōu)勢2

優(yōu)勢3

建議搭配產(chǎn)品

業(yè)務(wù)痛點(diǎn)及需求

優(yōu)勢1

優(yōu)勢2

優(yōu)勢3

建議搭配產(chǎn)品

產(chǎn)品迭代

星流平臺上線

支持開發(fā)任務(wù)、訓(xùn)練任務(wù)和內(nèi)置大模型部署

支持自定義部署模型在線服務(wù)

支持標(biāo)準(zhǔn)型、容量型KPFS存儲，支持容量和配額設(shè)置

支持模型管理

訓(xùn)練任務(wù)故障自愈策略完整發(fā)布

模型在線服務(wù)新增Qwen3、MIMO系列

仿真服務(wù)功能正式上線，支持通過平臺快速創(chuàng)建云主機(jī)，開箱即用NVIDIA Isaac Sim仿真環(huán)境

數(shù)據(jù)集功能正式上線，為用戶提供開源數(shù)據(jù)資源的集中管理與檢索服務(wù)

新增Pod維度GPU資源監(jiān)控功能，支持查看任務(wù)Pod的GPU資源監(jiān)控數(shù)據(jù)

支持標(biāo)準(zhǔn)型、容量型KPFS存儲，支持容量和配額設(shè)置

模型在線服務(wù)新增Qwen3、MIMO系列

仿真服務(wù)功能正式上線，支持通過平臺快速創(chuàng)建云主機(jī)，開箱即用NVIDIA Isaac Sim仿真環(huán)境

數(shù)據(jù)集功能正式上線，為用戶提供開源數(shù)據(jù)資源的集中管理與檢索服務(wù)

新增Pod維度GPU資源監(jiān)控功能，支持查看任務(wù)Pod的GPU資源監(jiān)控數(shù)據(jù)