中國開源首度超越美國:Hugging Face 發布全球 AI 開源現狀報告

中國首度超越美國,成為 Hugging Face 平台月下載量最大的模型來源國。

圖片

而且這項巨變,發生在短短一年之間。

Hugging Face 這篇報告,將帶你看清開源 AI 生態的真實面貌,從全球競爭格局的重塑、地區力量的崛起,到機器人與科學領域的新戰場,呈現一幅完整而清晰的開源 AI 版圖。

中國登頂與生態裂變

2025 年對開源 AI 而言是分水嶺式的一年。

Hugging Face 平台用戶數攀升至 1300 萬,公開模型突破 200 萬個,資料集超過 50 萬個,這些數字較上一年幾乎翻了一倍。

成長背後藏著一個更深層的變化,用戶不再只是模型的消費者,越來越多人開始創作衍生作品,微調模型、適配器、基準測試和應用層出不窮。

圖片

生態的繁榮並沒有掩蓋集中度的問題。

約一半的模型下載量不足 200 次,而排名前 200 的模型,僅佔總量的 0.01%,卻拿走了 49.6% 的下載份額。

開源 AI 更像是由多個重疊的子生態組成,每個子生態圍繞特定領域、語言或問題領域形成自己的社群,即使整體下載量不高,也能保持持續的參與和復用。

競爭格局正在經歷深刻調整。

財富 500 大企業中超過 30% 已在 Hugging Face 建立認證帳戶。

新創公司把開源模型當作預設組件,Thinking Machines 的 Tinker 模型完全基於開源權重構建,VSCode 和 Cursor 等主流 IDE 同時支援開源和閉源模型。

Airbnb 等老牌美國企業也在加大對開源生態的投入,Hugging Face 看到更多傳統公司在 2025 年期間升級其組織訂閱。

大型科技公司的動作更值得關注。

NVIDIA 已成為最活躍的貢獻者,各大科技公司紛紛在 Hugging Face Hub 上創建新倉庫,倉庫增長曲線清晰地顯示出持續的投入。

圖片

開源軟體領域的研究表明,開源產物的下游價值遠超其生產成本,類似規律正在 AI 領域顯現。

開源模型被數千個下游應用復用、適配和專業化,僅依賴閉源系統的組織往往面臨更高成本,在部署和客製化方面的彈性也受限。

地緣格局的變化最為劇烈。

過去四年累計下載量的數據顯示,美國和中國一直是領先的貢獻者,英國、德國和法國緊隨其後。

模型開發者如果是個人用戶或分散式組織,沒有明確地理歸屬,約佔平台總下載量的一半。

圖片

但 2025 年情況發生了根本性轉變。

Hugging Face 數據顯示中國超越美國,在月下載量和總下載量上都處於領先地位。過去一年,中國模型迅速佔據 41% 的下載份額。

圖片

業界在整體開發中的份額從 2022 年前的約 70% 降至 2025 年的 37%。

同期獨立或無附屬開發者從 17% 升至 39%,有時甚至佔到總使用量的一半以上。

個人和小型集體專注於量化和適配基礎模型,這些中間人群體現在引導著相當一部分用戶能執行什麼,以及創新如何在生態中傳播。

圖片

不同地區以不同方式參與生態。

美國和西歐歷史上透過大型業界實驗室主導,如 Google、Meta、OpenAI、Stability AI,中國則在發布和採用兩方面都日益領先。

法國、德國和英國繼續透過研究機構、國家 AI 計畫和專業化模型家族做出貢獻。支援多種貢獻者和組織形式的生態,往往能產生更廣泛採用的成果。

新創公司的熱門模型傳播更廣。有競爭力的國家包括法國和韓國。

值得注意的是,開發新熱門模型的第四大實體是個人用戶,而非組織。在用戶層面創建有競爭力的模型比以往任何時候都更容易。

圖片

DeepSeek R1 模型在 2025 年 1 月的病毒式傳播成為中國開源浪潮的標誌性事件。

此後,有競爭力的中國組織數量和在 Hugging Face 上的倉庫數量都呈爆發式增長。

百度從 2024 年在 Hub 上零發布激增到 2025 年的 100 多個倉庫。

位元組跳動和騰訊的發布量增長 8 到 9 倍。

此前傾向閉源策略的百度和 MiniMax 等組織,都果斷轉向開源發布。

圖片

美國方面,數量相近的熱門組織一直持續貢獻更高數量的倉庫。Meta 及其前身 Facebook 研究組織貢獻了相當比例的開源發布,Google 也有一定貢獻,但程度較低。

圖片

兩者放在一起,熱門中國組織倉庫增長的陡峭上升軌跡顯示出關鍵的策略差異。

圖片

主權 AI 與硬體版圖

開源 AI 正日益與主權問題交織在一起。

開源權重模型允許政府和公共機構在國家法律框架下,用在地資料微調系統。

可部署在本土硬體上的模型減少了對海外控制的雲端基礎設施的依賴。模型架構、訓練過程和評估的透明度支援監管審查和公眾問責。

各國政府已開始行動。

韓國國家主權 AI 計畫於 2025 年中期啟動,指定 LG AI Research、SK Telecom、Naver Cloud、NC AI 和 Upstage 為國家冠軍企業,生產有競爭力的本土模型。

2026 年 2 月,三個韓國模型同時登上 Hugging Face 熱榜。

圖片

2026 年 3 月,韓國與美國新創公司 Reflection AI 宣布資料中心合作,將前沿開源權重模型引入韓國。

瑞士 AI 計畫和多項歐盟資助項目反映了類似優先順序,英國公共資金、公共程式碼的原則影響了多個政府支援的 AI 倡議。

投資正在產生回報。模型和資料集通常在開發地區使用最多,開發者往往選擇最能代表其語言、反映類似技術和應用需求的模型。

圖片

最受歡迎的模型榜單也在變化。

一年前,最受喜愛的模型主要來自美國的 Meta Llama 家族。

一年後,榜單呈現國際化混合格局,中國的 DeepSeek-R1 位居榜首。這項指標不一定反映使用量,但積累的關注度能顯示興趣訊號。

圖片

論文和科學貢獻方面,Hugging Face Daily Papers 數據顯示,大型 AI 組織的論文受到社群成員廣泛認可。

最受推崇的論文主要來自美國和中國的頭部組織。

中國大型科技公司佔多數,位元組跳動分享了大量高影響力論文。

另一角度看,涉及模型和資料集創建的論文顯示出更多樣化的開源採用,醫學論文影響力突出,大型科技公司的影響反而分散。

圖片

衍生模型的數據揭示了一個有趣現象。

阿里巴巴作為組織,其衍生模型數量超過 Google 和 Meta 的總和,Qwen 家族構成超過 113000 個衍生模型。計入所有標註 Qwen 的模型,數字膨脹到超過 200000 個。

圖片

模型開發越來越強調可及性。

小模型的下載和部署率遠高於超大型系統,反映出成本、延遲和硬體可用性的現實限制。

小模型主導部分原因在於發布數量更多,但即使歸一化處理,ATOM 專案的相對採用指標顯示,1 至 90 億參數的中位數前 10 模型下載量僅比 1000 億以上參數的模型高約 4 倍。

自動化系統和 CI 流水線進一步推高了小模型下載計數,但向小型可部署模型發展的趨勢是真實的。

圖片

用戶對開源模型的參與通常在發布後迅速達到峰值,然後放緩。平均參與持續時間約 6 週。持續改進和頻繁更新對保持相關性至關重要。

DeepSeek 的連續發布,V3、R1、V3.2,使其在挑戰者湧現時仍保持競爭力。開發停滯的組織往往迅速失去份額,輸給頻繁更新或領域微調的競爭者。

圖片

下載模型的大小也在變化。2023 年下載模型平均參數量為 8.27 億,2025 年升至 208 億,主要由量化和混合專家架構推動。

中位數則僅小幅增長,從 3.26 億升至 4.06 億。這種分化表明,高端大型語言模型用戶拉高了均值,而底層小模型使用保持穩定。

圖片

前沿模型與小型系統的效能差距往往透過微調和任務適配迅速縮小。

在 Hugging Face Hub 上,數億參數的模型支援搜尋、標註和文件處理工作流,個位數十億參數的模型廣泛用於編碼、推理和多模態任務。

大多數主要模型開發商現在發布覆蓋不同尺寸的模型家族。有能力的小型模型將自主權推向邊緣,減少對集中式雲端供應商的依賴。

開源 AI 開發與硬體趨勢緊密相連。

大多數模型針對 NVIDIA GPU 優化,但 AMD 硬體支援持續擴展。

Stability AI 模型集合現在同時針對 NVIDIA 和 AMD 平台優化。函式庫越來越多地面向兩者,工具改進使跨硬體部署更直接。

2025 年 Hugging Face 推出 Kernel Hub,載入和運行為 NVIDIA 和 AMD GPU 優化的核心。

中國開源模型開始明確支援國產晶片。

阿里巴巴投資推理專用晶片架構,旨在讓中國資料中心配備能夠在本地運行開源模型的硬體。

對開源權重模型而言,運算資源仍是開發和部署的核心需求,但它們正在幫助打破一個生態系統,使其不再是全部和終結。各效能層級都有模型推出,效率比最大開發者的旗艦 AI 模型低 10 到 1000 倍成本。

圖片

開源基礎設施投資問題仍然緊迫。能夠訓練和服務開源模型的公共資金資料中心已成為日益增長的政策討論話題,尤其在歐洲和英國。

大型閉源模型公司可用的運算資源與開源社群可獲取資源之間的差距,持續塑造著開源開發的可行性邊界。

機器人與科學的新疆域

機器人學成為 Hugging Face 增長最快的子社群之一。

數字令人矚目,機器人資料集從 2024 年的 1145 個增長到 2025 年的 26991 個,三年內從第 44 位攀升至資料集類別的第一名。

作為對比,第二大類別文字生成在 2025 年僅有約 5000 個資料集。

圖片

社群貢獻的資料集涵蓋家庭操作任務到自動駕駛。最大的空間智慧多模態資料集 Learning to Drive 由 LeRobot 與 Yaak 合作發布。

RoboMIND 等資料集提供超過 107000 條真實世界軌跡,覆蓋 479 個不同任務和多種機器人形態,為訓練可泛化的機器人策略提供了所需的規模和多樣性。

Hugging Face 收購 Pollen Robotics,將開源機器人銷售擴展到業界實驗室、學術實驗室和普通愛好者。

LeRobot 是 Hugging Face 的開源機器人庫,提供真實世界機器人的模型、資料集和 PyTorch 工具,涵蓋模仿學習、強化學習和視覺語言動作模型,過去一年 GitHub 倉庫星標接近三倍。

科學研究是另一個活躍領域。開源模型和資料集越來越多地用於蛋白質折疊、分子動力學、藥物發現和科學資料分析。所有前沿 AI 公司現在都有專門的科學團隊,雖然當前重點仍是文獻發現而非直接實驗。

圖片

社群主導的專案圍繞共同研究目標形成,通常涉及跨機構和學科的數百名貢獻者。這些努力凸顯了開源作為大規模跨學科工作協調機制的角色,這類工作很難僅透過傳統學術或企業結構組織。

展望未來,開源 AI 生態正透過全球參與、技術專業化和制度採納持續演進。幾個趨勢可能定義下一階段。

地理權力再平衡正在加速。西方組織日益尋求中國模型的商業可用替代品,OpenAI 的 GPT-OSS、AI2 的 OLMo 和 Google 的 Gemma 等努力更顯緊迫,旨在提供來自美國和歐洲開發者的有競爭力開源選項。這些努力能否匹配 Qwen 和 DeepSeek 的採用勢頭,將成為 2026 年的決定性問題。

機器人和科學子社群的增長表明,開源 AI 正從語言和影像生成擴展到物理和實驗領域。圍繞文字和影像模型開發的基礎設施、規範和協調機制正在適應新的模態和用例。

對於研究人員、開發者、公司和政府,開源仍是構建、評估和治理 AI 系統的基礎層。

隨著智慧代理部署增加,開源及其互通性將成為智慧代理蓬勃發展的關鍵。

過去一年的軌跡清晰地表明,開源生態是 AI 開發、適配和部署實務工作大量發生的地方,其對更廣泛 AI 格局的影響力持續增長。

參考資料:

https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.