DEEPSEEK大爆發(下) 文:陳思靜

中國AI公司DeepSeek的R1模型憑藉其低成本和高性能的特點,在全球雲服務市場中迅速崛起。英偉達、英特爾、微軟等行業巨頭一邊高呼“安全風險”,一邊卻偷偷接入DeepSeek API,給我們上演了一堂科技版的“真香定律”。

國內的互聯網巨頭們也沒有錯失這波破天流量,短短六天內,騰訊雲、阿裡雲、華為雲、百度智慧雲、火山引擎等數十家雲計算服務龍頭,華為昇騰、沐曦、摩爾執行緒、壁仞等10多家國產AI晶片企業,國內三大運營商移動、聯通、電信相繼宣佈適配、上架或接入DeepSeek模型服務。

一時之間,這場AI大模型的技術反覆運算從而不知不覺就演變成全球科技行業的現象級事件。

什麼造就了DeepSeek的高度?

Deepseek是在此次中美大模型技術之爭中“一戰成名”,但更早之前,Deepseek便已經因為“價格便宜”而被AI圈廣泛關注。去年中大模型行業大打“價格戰”,但第一個“挑起戰火”的並非阿裡、百度等大廠,而是Deepseek,彼時其新推出的DeepSeek-V2價格僅為 GPT-4-Turbo 的百分之一左右。此次“降價”也讓Deepseek被冠以“AI界拼多多”之稱。

事實上,這才是Deepseek能夠震驚全球科技界的主要原因,其能夠以更低的成本換來更高的性能,顛覆了過去大模型行業依靠堆顯卡、堆資本來發展AI的“Scaling law”。這是因為Deepseek的模型訓練路徑不同于傳統通用大模型,以ChatGPT為代表的傳統AI,主要採用監督微調(簡稱 SFT)作為大模型訓練的核心環節,即通過人工標注資料進行監督訓練,再結合強化學習進行優化,本質上大模型並不會思考,只是通過模仿人類思維方式來提升推理能力。

但在1月底發佈的Deepseek-R1-Zero卻顛覆了這一規則,其對模型架構進行了全方位創新,通過單純的強化學習(RL)訓練實現推理能力。簡單來說,SFT是人類生成資料,機器學習;而RL是機器生成資料,機器學習。

除此以外,據每日財經新聞報導,DeepSeek創新性地同時使用了FP8、MLA(多頭潛在注意力)和MoE(利用混合專家架構)三種技術。其中,相較於其他模型使用的MoE架構,DeepSeek-V3的更為精簡有效,其就像是醫院的“分診制度”,可以將大模型拆分成多個“專家”,訓練時分工協作,推理時根據任務分配給最適合的專家模組。據悉,Deepseek能夠將無效訓練從傳統模型的90%降低至60%。

不過,技術上的逆襲,尚不足以徹底震驚科技界,真正引爆Deepseek的變數,其實是“開源”。據悉,Deepseek已經把模型架構和參數開源,在大模型公司普遍選擇閉源的當下,訓練資料的開源在業界少有先例。

一方面,開源將能吸引更多大廠和技術人才加入,通過共建共創讓Deepseek變得更加強大,從而推動整個人工智慧大模型生態的發展,形成一個全新的生態。另一方面,對於以OpenAI為代表的競爭對手來說,這也是一個致命的打擊。畢竟,當一個旗鼓相當的,還是免費的產品出現在消費者面前,大家難免就會進行比較,誰的性價比更高,誰的性能更優秀,都需要實打實的使用效果來驗證,而不僅僅只是“吹泡沫”。

其次則是生態效應,吳恩達認為,“降價”+“開源”正在將基礎模型層商品化,為應用開發者創造了巨大的機遇。儘早加入這一生態,讓自家大模型與之相結合,也有望帶來更多創新體驗,“收攏”部分DeepSeek使用者的需求。

最後是成本差異。

據斯坦福大學電腦科學系和電子工程系副教授吳恩達表示,OpenAI – o1模型每百萬輸出token 的成本為60美元,而Deepseek-R1 則僅需 2.19 美元;而DeepSeek官方價目表顯示,DeepSeek-Chat 模型優惠期至2月8日24時,優惠結束後將按每百萬輸入Tokens達2元,每百萬輸出Tokens計費8元;DeepSeek-Reasoner輸入4元、輸出16元。

在功能上,DeepSeek 專注于技術應用;同時在成本效益、技術精度和定制化方面表現出色,非常適合編碼和研究等專業任務,可滿足不同用戶的需求。

DeepSeek的崛起不僅僅是技術突破的象徵,而對中美科技競爭的格局更是帶來了深遠影響。美國的出口限制未能如預期般削弱中國的AI能力,反而更加強有力地促使中國在演算法設計和資源優化上更上一層樓,同時也取得了更大的突破。

編造一個神話需要幾年、十幾年,甚至更久,但打碎一個神話卻只需一瞬間!

文:陳思靜

擊劍任俠 快意恩仇 浪蕩宦海 十載浮沉

*作者文章觀點,不代表堅料網立場

最新文章