了解金山云最新資訊
2025-05-27 19:20:00
在企業(yè)智能化升級過程中,DeepSeek、Manus等大模型的快速出圈,引發(fā)了行業(yè)內(nèi)外的廣泛關(guān)注,在新技術(shù)突破與應(yīng)用創(chuàng)新的帶動下,千行百業(yè)的數(shù)字化升級便有了全新視角。
為了深入探討大模型在不同領(lǐng)域的發(fā)展現(xiàn)狀、趨勢及影響,ITPUB編輯部推出了DeepSeek特別策劃選題,通過對不同專家的深度訪談,對大模型應(yīng)用落地過程中遇到的各種問題進行拆解,為讀者全面、客觀地了解大模型的真實現(xiàn)狀,帶來更具啟發(fā)性的思考和借鑒作用。
本期,我們有幸采訪了金山云助理總裁、公有云產(chǎn)品研發(fā)中心負(fù)責(zé)人孫曉,他從DeepSeek底層技術(shù)創(chuàng)新、上層應(yīng)用等角度分析了大模型的最新能力進化。
▲金山云助理總裁、公有云產(chǎn)品研發(fā)中心負(fù)責(zé)人孫曉
DeepSeek在兩周之內(nèi)火遍全世界,這件事可以說是史無前例,很多人都在試圖探尋DeepSeek成功背后的商業(yè)邏輯。這個新晉大模型快速上位背后,到底是個體的一次“超越”,還是人工智能領(lǐng)域“整體躍遷”?在輿論領(lǐng)域發(fā)生一場激烈的“口水戰(zhàn)”過后,答案似乎變得更加清晰!
當(dāng)大模型競爭走向深水區(qū),已不是誰超越誰那么簡單,而是全球科技創(chuàng)新不斷演進的結(jié)果,是技術(shù)范式的全新變革。正如孫曉所言,大模型創(chuàng)新不一定從零開始,去創(chuàng)造一個新的模型。即便強如DeepSeek,也是基于行業(yè)智慧創(chuàng)新的基礎(chǔ)上實現(xiàn)了技術(shù)的迭代升級,比如:Transformer架構(gòu)、MOE架構(gòu)以及Reinforcement Learning等都不是首創(chuàng),而是對經(jīng)典架構(gòu)的繼承與突破。
當(dāng)然,DeepSeek并不是簡單的拿來主義,其獨創(chuàng)的深度思考能力,就連Hugging Face也曾嘗試模仿,打造R1推理模型。為了打破算力壟斷局面,DeepSeek基于現(xiàn)有技術(shù)做了廣泛的革新,從底層的計算庫、通信庫到對MOE架構(gòu)的優(yōu)化,乃至開創(chuàng)性地融合Reinforcement Learning,每一項能力都展現(xiàn)了其豐富的創(chuàng)新元素。
技術(shù)范式變革
DeepSeek的成功不是一個偶然事件,而是通過技術(shù)破局重新定義了AGI發(fā)展的坐標(biāo)系。
模型架構(gòu)創(chuàng)新層面,DeepSeek引入了MoE(混合專家模型)架構(gòu),這種更具創(chuàng)新性的網(wǎng)絡(luò)層架構(gòu),打破了傳統(tǒng)Transformer架構(gòu)局限,在擴大模型容量的同時,還能控制資源消耗。
模型訓(xùn)練優(yōu)化上,DeepSeek另辟蹊徑,采用了混合精度框架。在此框架下,大部分密集計算操作被分解為更小的組,同時每個組都運用特定乘數(shù)進行調(diào)整,從而維持高精度。
針對高強化學(xué)習(xí),也就是模型的后訓(xùn)練階段,DeepSeek創(chuàng)新性地將GRPO算法應(yīng)用于強化學(xué)習(xí)過程,顯著提升了大語言模型(LLMs)的數(shù)學(xué)推理能力。
而在重要的數(shù)據(jù)蒸餾技術(shù)上,DeepSeek將數(shù)據(jù)蒸餾與模型蒸餾相結(jié)合,實現(xiàn)了從大型復(fù)雜模型向小型高效模型的知識有效遷移,這種融合策略不僅顯著增強了模型性能,還大幅降低了計算成本。
整體來看,DeepSeek通過多維度的技術(shù)創(chuàng)新,顯著降低了模型的訓(xùn)練和推理成本,向業(yè)界展示了算法優(yōu)化比單純算力堆疊更具優(yōu)越性。對于那些想要應(yīng)用大模型的企業(yè)而言,DeepSeek提供的低成本部署方案,使得每個企業(yè)都能擁有自己的大模型,極大地推動了AI技術(shù)的普及。
開源與閉源的一場較量
DeepSeek能夠在“國際舞臺”上大放異彩,除了技術(shù)創(chuàng)新的獨特性,開源路線的選擇,是其能夠快速發(fā)展壯大的另一個重要原因。
在人工智能的賽道上,到底選擇開源還是閉源,一直是一個爭論不休的話題。以O(shè)penAI為代表的公司,長期堅持封閉模式,依靠資金和算力優(yōu)勢開發(fā)高性能AI模型,并通過API收費或者訂閱的模式進行商業(yè)化運營;以Meta為代表的Llama模型,則以模型和代碼共享的開源方式,讓全球開發(fā)者或者相關(guān)企業(yè)在現(xiàn)有技術(shù)基礎(chǔ)上進行優(yōu)化和拓展。與后者相同,DeepSeek選擇通過開源的方式提供優(yōu)化工具和商業(yè)方案。只不過,DeepSeek更具開放性,通過全棧開源引發(fā)了全球技術(shù)范式的變革。
從開源模型到開源底層全棧通信庫,DeepSeek的諸多舉措無異給渴望積極擁抱AI浪潮的企業(yè)提供了一個免費的、高性能大模型的“大腦”。目前,MIT協(xié)議開源框架已吸引幾十個國家開發(fā)者參與貢獻,形成“基礎(chǔ)模型開源-垂直插件商業(yè)化”的生態(tài)閉環(huán)。這一模式直接沖擊了OpenAI的API的訂閱制與Meta的封閉生態(tài)。
之所以選擇開源路線,是因為技術(shù)優(yōu)勢只是暫時的,創(chuàng)新驅(qū)動才是長久的護城河。DeepSeek通過開源策略,讓全球開發(fā)者將在集體創(chuàng)新基礎(chǔ)上形成一股凝聚力,最終打破高性能AI模型被少數(shù)科技巨頭壟斷的局面,從根本上降低AI技術(shù)的使用門檻,讓整個AI生態(tài)發(fā)展再上新臺階。
當(dāng)然,長遠看,開源與閉源并不是非此即彼。未來,隨著大模型應(yīng)用場景的不斷豐富,開源與閉源會一直并存、相互滲透。
打通模型到應(yīng)用的最后一公里
在大模型技術(shù)路線選擇上,不僅涉及開源與閉源的問題,還有公有云與私有云,滿血版與蒸餾版。到底選擇哪種路線,其實是一個業(yè)務(wù)場景選擇的過程。
在孫曉看來,大模型產(chǎn)品雖然選擇很多,但應(yīng)用上依然處于探索階段。雖然,DeepSeek的高效性得到普遍認(rèn)同,但在具體應(yīng)用方法和版本選擇上仍存疑惑。不同云廠商紛紛選擇接入DeepSeek生態(tài),其能力價值在于——深入理解客戶需求,為客戶提供最為契合的產(chǎn)品與解決方案。
通常情況下,用戶會基于業(yè)務(wù)需求選擇大模型的部署和接入方式。在模型部署上,公有云接入的優(yōu)勢在于,賦予業(yè)務(wù)更高的啟動與部署靈活性,云廠商提供的運維服務(wù)使客戶能更專注于核心業(yè)務(wù);私有云接入的優(yōu)勢在于,確??蛻舻臄?shù)據(jù)安全與合規(guī)性,同時賦予客戶自行保障業(yè)務(wù)穩(wěn)定性的能力。而在不同版本的接入方式上,需根據(jù)R1與V3的特性來決定。R1以其強大的推理能力,在處理復(fù)雜請求時更具優(yōu)勢;而V3則以其高性價比和通用性,更適合廣泛應(yīng)用于各種場景。
舉例來說,當(dāng)客戶想要部署一個大模型,首先需細致評估企業(yè)應(yīng)用場景的實際需求,進而依據(jù)這些需求確定部署模式(如公有云或混合云)、是否需針對DeepSeek進行定制化微調(diào)、以及API接入方式(自建或采用云廠商預(yù)置的API)等架構(gòu)層面的規(guī)劃。之后,在實際應(yīng)用場景中實施DeepSeek的接入與改造工作。此過程中,涉及多個要素的協(xié)作與綜合評估,包括方案的切實可行性、服務(wù)的高穩(wěn)定性、數(shù)據(jù)的安全性與合規(guī)性,以及從客戶立場出發(fā)必須權(quán)衡的性價比等等。說到底,決策者不僅需要考量通過DeepSeek接入業(yè)務(wù)的可行性,還要考慮能為企業(yè)應(yīng)用場景帶來何種價值,以提升與收益增長,這些都是決策時不可或缺的綜合因素。
需要特別強調(diào)的一點是,生成式AI是一個涵蓋廣泛領(lǐng)域的概念,包含了諸如智能客服、照片與視頻生成,以及提升編程效率的Cursor、Copilot等多樣應(yīng)用,這些均能顯著提升生產(chǎn)與工作效率。但是,對企業(yè)生成式AI來說,大模型探索往往會遇到很多挑戰(zhàn),比如:初期投入成本較高,若不能準(zhǔn)確定位產(chǎn)品,很容易陷入“為AI而AI”的誤區(qū),也就是人們常說的盲目追求技術(shù)而忽視實際需求。
所以,對于廣大初創(chuàng)公司或者用戶來說,要想順利推進生成式AI應(yīng)用,需要掌握一些心得要領(lǐng),才能輕松駕馭技術(shù)創(chuàng)新。首先,聚焦特定的垂直場景。企業(yè)級AI領(lǐng)域廣闊而復(fù)雜,應(yīng)該深入挖掘某一具體場景的需求,確保技術(shù)能真正落地并解決實際問題,而不是盲目追求泛化競爭。其次,要理性評估性價比。在企業(yè)級AI市場中,技術(shù)和產(chǎn)品的差異化競爭至關(guān)重要。企業(yè)要結(jié)合自身資源和優(yōu)勢,打造具有獨特競爭力的產(chǎn)品,而不是盲目跟風(fēng),一味追趕前沿技術(shù)。最后,打造堅實的壁壘是成功的關(guān)鍵。無論是數(shù)據(jù)、用戶還是技術(shù)層面,都應(yīng)努力構(gòu)建自身的核心競爭優(yōu)勢。只有真正構(gòu)建出自己的壁壘,才能在激烈的市場競爭中擁有更多的話語權(quán)和議價能力。
結(jié)語
可以預(yù)見,企業(yè)級生成式AI將成為千行百業(yè)實現(xiàn)數(shù)智化升級的核心動能,未來每家企業(yè)都將擁有量身定制的“大腦”模型,為企業(yè)決策提供強效賦能。盡管當(dāng)前企業(yè)在知識共享與業(yè)務(wù)流程數(shù)字化進程中仍面臨諸多瓶頸,但伴隨技術(shù)迭代升級與底層基礎(chǔ)設(shè)施的輕量化、模塊化演進,下一代企業(yè)軟件生態(tài)將迎來顛覆性變革——生成式AI將深度重構(gòu)企業(yè)運作流程與軟件架構(gòu),推動業(yè)務(wù)模式向智能化、自適應(yīng)方向躍遷。此種背景下,企業(yè)亟需構(gòu)建"技術(shù)敏銳度+業(yè)務(wù)洞察力"的雙重能力體系,唯有將生成式AI深度融入戰(zhàn)略規(guī)劃與日常運營,方能在未來的商業(yè)競爭中構(gòu)建可持續(xù)的差異化優(yōu)勢。