小紅書推出「萬物皆可 OCR」:3B 小型模型逆襲眾多大型模型,圖表也能解析成代碼

論文:Multimodal OCR: Parse Anything from Documents
機構:華中科技大學 & 小紅書 hi lab
連結:https://arxiv.org/abs/2603.13032
程式碼:https://github.com/rednote-hilab/dots.mocr

一句話總結

小紅書團隊提出了一個全新的文件解析範式——Multimodal OCR (MOCR),核心思想很簡單但極具顛覆性:文件裡的圖表、圖示、UI 介面、化學分子式……通通不再當成「圖片」裁切後丟棄,而是直接解析成可執行的 SVG 代碼。

他們訓練了一個僅 3B 參數的模型 dots.mocr,在文件解析與圖形結構化兩個方向都創下驚人佳績。

MOCR 概覽

▲ 圖 1:MOCR 概覽。輸入一張文件圖片,輸出統一的結構化表示——文字轉為 Markdown,圖表轉為 SVG 代碼。


為什麼這篇論文值得關注?

1. 提出新範式,不只是刷新 SOTA

傳統 OCR 系統(包含近期火紅的各種文件大型模型)的運作方式如下:

  • 文字 → 識別成文字 ✅
  • 表格 → 識別成結構化標記 ✅
  • 圖表/圖示/流程圖/UI 截圖 → 裁切成圖片,結束 ❌

這代表文件中大量具備資訊量的圖形元素,實際上被當作黑盒丟棄。你拿到的「解析結果」其實是有損的。

MOCR 說:不行,圖也要解析。而且不是生成一段文字描述,而是直接輸出可渲染的 SVG 代碼——你可以用瀏覽器打開它、編輯它、重新組合它。

傳統 OCR vs MOCR

▲ 圖 2:傳統 OCR 只管文字,圖形直接裁成像素丟掉;MOCR 把圖形也解析成結構化的 SVG 代碼,實現真正的「無損」文件解析。

這不僅僅是「做得更好」,而是重新定義了「文件解析應該做什麼」。

2. 3B 模型打敗一堆大型模型

來看看成績單:

效能對比

▲ 圖 3:dots.mocr 在文件解析與圖形解析兩個方向的綜合表現。

文件解析(傳統 OCR 方向):

  • 在 OCR Arena Elo 排行榜上,僅次於 Gemini 3 Pro,超越所有開源模型
  • 在 olmOCR-Bench 上取得 83.9 的新 SOTA
  • 在 ArXiv 論文、表格、多欄排版等類別拿下最高分

圖形結構化解析(SVG 方向):

  • 在圖表→SVG、UI→SVG、科學插圖→SVG、化學結構→SVG 等多個 benchmark 上
  • 全面超越 Gemini 3 Pro

一個 3B 的模型,在圖形解析上打敗了 Gemini 3 Pro。這說明了什麼?代表針對性的架構設計與資料工程,在特定任務上可以碾壓通用大型模型。

3. 小紅書出品——工業界的硬核研究

這篇論文來自小紅書的 hi lab,第一作者與通訊作者來自湖北武漢的華中科技大學白翔教授團隊(OCR/文件理解領域的頂尖團隊)。程式碼與模型已全部開源。

小紅書本身就有海量的圖文內容需要理解與索引,MOCR 很可能不只是一篇論文,而是他們在內容理解管線上的核心升級。


技術細節拆解

架構:大型視覺編碼器 + 小型語言解碼器

dots.mocr 的架構設計相當有趣:

  • 視覺編碼器:1.2B 參數,完全從零訓練(非微調既有模型),支援高達約 1100 萬像素的原生高解析度輸入
  • 語言解碼器:Qwen2.5-1.5B,使用 base 版本而非 chat 版本作為初始化
  • 輕量連接器:連結視覺與語言

為什麼視覺編碼器這麼大?因為文件解析需要同時看清小字體文字與精確定位圖形元素(圖表中的標記點、流程圖中的連線),這對解析度要求極高。

為什麼使用 base 模型而非 chat 模型?因為 MOCR 需要生成的是高度結構化的序列(Markdown、LaTeX、SVG 代碼),這跟「對話」是完全不同的輸出分布,從 base 模型開始訓練更合適。

訓練策略:三階段漸進式預訓練

  1. 第一階段:通用視覺 - 語言對齊,讓語言模型學會「看圖」
  2. 第二階段:混合訓練——通用視覺資料 + 文字文件解析,建立強大的文字 OCR 能力
  3. 第三階段:加大 MOCR 特有任務的比重,特別是圖形→SVG 解析

三個階段逐步提升輸入解析度,匹配越來越困難的任務需求。

預訓練之後還有指令微調(SFT),分為兩個版本:

  • dots.mocr:通用版本,文件解析與圖形解析均衡
  • dots.mocr-svg:SVG 強化版,在 SFT 階段加大 SVG 資料比例

資料引擎:四大資料來源

這可能是整篇論文最值得學習的部分——資料工程決定模型上限

  1. PDF 文件:用自家的 dots.ocr 進行自動標註,依語言/領域/版面複雜度分層取樣
  2. 網頁渲染:爬取網頁並渲染成圖片,HTML/DOM 結構天然提供對齊訊號,而且網頁中大量原生 SVG 元素可直接作為訓練資料
  3. SVG 圖形資源:從網上收集原生 SVG 檔案,經過 svgo 清洗、去重(代碼級 + 感知雜湊)、複雜度均衡取樣
  4. 通用視覺資料:保持模型的通用視覺能力

特別值得注意的是 SVG 資料的處理——同一張圖可以有無數種不同的 SVG 寫法(代碼不唯一),論文中透過標準化(canonicalization)、viewBox 標準化、複雜度控制等手段來解決這個問題。

評估方法:OCR Arena

傳統的 WER、NED 等指標對文件解析來說太脆弱了——格式稍有不同就會被過度懲罰。論文提出了OCR Arena評估框架:

  • 用 Gemini 3 Flash 作為裁判
  • 兩兩對比模型輸出
  • 雙向評估(AB 和 BA 各評一次)消除位置偏差
  • 用 Elo 評分系統(類似棋類比賽排名)生成最終排行
  • 1000 次 bootstrap 重取樣確保統計穩健性

這套評估方法本身就極具參考價值。


實際效果展示

來看看幾個實際的解析案例:

版面分析效果

▲ 圖 4:dots.mocr 在各種複雜文件上的版面分析結果——學術論文、報紙、表格、多語言文件都能準確識別。

SVG 解析效果

▲ 圖 5:dots.mocr-svg 的圖形解析效果。輸入各種圖示圖片,輸出可渲染的 SVG 代碼,重建品質極高。


幾個關鍵數字

指標成績
模型參數3B(視覺 1.2B + 語言 1.5B + 連接器)
最大輸入解析度約 1100 萬像素
olmOCR-Bench83.9(新 SOTA)
OCR Arena 排名開源第一,總榜僅次於 Gemini 3 Pro
圖形→SVG多個 benchmark 超越 Gemini 3 Pro

我的思考

這不只是 OCR 的進步,而是「文件理解」定義的擴展

過去大家談到文件解析,預設就是「提取文字」。MOCR 把界線推到了「提取一切可結構化的資訊」。這對下游的 RAG、知識庫建構、多模態預訓練資料生產都有直接影響。

SVG 作為統一表示的巧妙之處

為什麼選擇 SVG 而不是其他格式?因為 SVG 是:

  • 可渲染的:瀏覽器直接打開
  • 可編輯的:可以修改顏色、大小、文字
  • 可搜尋的:SVG 內的文字是真實文字
  • 可組合的:多個 SVG 可以拼接
  • 自描述的:代碼本身就是結構化表示

用 SVG 作為圖形解析的統一輸出格式,是非常優雅的設計選擇。

資料工程 >> 模型規模

3B 模型能打贏遠大於自己的通用大型模型,核心不在於模型架構有多創新,而在於:

  • 從零訓練的高解析度視覺編碼器
  • 精心設計的多階段訓練策略
  • 極其用心的資料引擎

這再次印證了一個產業共識:在特定任務上,只要資料品質與工程做到位,小型模型完全可以碾壓大型模型。

局限性

論文也誠實指出:目前文件解析與 SVG 解析還需要分兩次執行(非一次端到端),後續應該能統一成一次推理。此外在老舊掃描件、頁首頁尾等情境還有進步空間。


總結

MOCR 是文件解析領域真正的範式轉移——從「只看文字」到「萬物皆可解析」。小紅書團隊不僅提出這個新範式,更用一個 3B 的小型模型證明了其可行性與競爭力。

程式碼與模型皆已開源,如果你從事文件智能相關工作,這篇論文與這個模型值得深入研究和關注。

📄 論文:https://arxiv.org/abs/2603.13032
💻 程式碼:https://github.com/rednote-hilab/dots.mocr

本文由 AI 輔助生成,已通過人工審核校對。

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.