論文:Multimodal OCR: Parse Anything from Documents
機構:華中科技大學 & 小紅書 hi lab
連結:https://arxiv.org/abs/2603.13032
程式碼:https://github.com/rednote-hilab/dots.mocr
一句話總結
小紅書團隊提出了一個全新的文件解析範式——Multimodal OCR (MOCR),核心思想很簡單但極具顛覆性:文件裡的圖表、圖示、UI 介面、化學分子式……通通不再當成「圖片」裁切後丟棄,而是直接解析成可執行的 SVG 代碼。
他們訓練了一個僅 3B 參數的模型 dots.mocr,在文件解析與圖形結構化兩個方向都創下驚人佳績。
▲ 圖 1:MOCR 概覽。輸入一張文件圖片,輸出統一的結構化表示——文字轉為 Markdown,圖表轉為 SVG 代碼。
為什麼這篇論文值得關注?
1. 提出新範式,不只是刷新 SOTA
傳統 OCR 系統(包含近期火紅的各種文件大型模型)的運作方式如下:
- 文字 → 識別成文字 ✅
- 表格 → 識別成結構化標記 ✅
- 圖表/圖示/流程圖/UI 截圖 → 裁切成圖片,結束 ❌
這代表文件中大量具備資訊量的圖形元素,實際上被當作黑盒丟棄。你拿到的「解析結果」其實是有損的。
MOCR 說:不行,圖也要解析。而且不是生成一段文字描述,而是直接輸出可渲染的 SVG 代碼——你可以用瀏覽器打開它、編輯它、重新組合它。
▲ 圖 2:傳統 OCR 只管文字,圖形直接裁成像素丟掉;MOCR 把圖形也解析成結構化的 SVG 代碼,實現真正的「無損」文件解析。
這不僅僅是「做得更好」,而是重新定義了「文件解析應該做什麼」。
2. 3B 模型打敗一堆大型模型
來看看成績單:
▲ 圖 3:dots.mocr 在文件解析與圖形解析兩個方向的綜合表現。
文件解析(傳統 OCR 方向):
- 在 OCR Arena Elo 排行榜上,僅次於 Gemini 3 Pro,超越所有開源模型
- 在 olmOCR-Bench 上取得 83.9 的新 SOTA
- 在 ArXiv 論文、表格、多欄排版等類別拿下最高分
圖形結構化解析(SVG 方向):
- 在圖表→SVG、UI→SVG、科學插圖→SVG、化學結構→SVG 等多個 benchmark 上
- 全面超越 Gemini 3 Pro
一個 3B 的模型,在圖形解析上打敗了 Gemini 3 Pro。這說明了什麼?代表針對性的架構設計與資料工程,在特定任務上可以碾壓通用大型模型。
3. 小紅書出品——工業界的硬核研究
這篇論文來自小紅書的 hi lab,第一作者與通訊作者來自湖北武漢的華中科技大學白翔教授團隊(OCR/文件理解領域的頂尖團隊)。程式碼與模型已全部開源。
小紅書本身就有海量的圖文內容需要理解與索引,MOCR 很可能不只是一篇論文,而是他們在內容理解管線上的核心升級。
技術細節拆解
架構:大型視覺編碼器 + 小型語言解碼器
dots.mocr 的架構設計相當有趣:
- 視覺編碼器:1.2B 參數,完全從零訓練(非微調既有模型),支援高達約 1100 萬像素的原生高解析度輸入
- 語言解碼器:Qwen2.5-1.5B,使用 base 版本而非 chat 版本作為初始化
- 輕量連接器:連結視覺與語言
為什麼視覺編碼器這麼大?因為文件解析需要同時看清小字體文字與精確定位圖形元素(圖表中的標記點、流程圖中的連線),這對解析度要求極高。
為什麼使用 base 模型而非 chat 模型?因為 MOCR 需要生成的是高度結構化的序列(Markdown、LaTeX、SVG 代碼),這跟「對話」是完全不同的輸出分布,從 base 模型開始訓練更合適。
訓練策略:三階段漸進式預訓練
- 第一階段:通用視覺 - 語言對齊,讓語言模型學會「看圖」
- 第二階段:混合訓練——通用視覺資料 + 文字文件解析,建立強大的文字 OCR 能力
- 第三階段:加大 MOCR 特有任務的比重,特別是圖形→SVG 解析
三個階段逐步提升輸入解析度,匹配越來越困難的任務需求。
預訓練之後還有指令微調(SFT),分為兩個版本:
dots.mocr:通用版本,文件解析與圖形解析均衡dots.mocr-svg:SVG 強化版,在 SFT 階段加大 SVG 資料比例
資料引擎:四大資料來源
這可能是整篇論文最值得學習的部分——資料工程決定模型上限。
- PDF 文件:用自家的 dots.ocr 進行自動標註,依語言/領域/版面複雜度分層取樣
- 網頁渲染:爬取網頁並渲染成圖片,HTML/DOM 結構天然提供對齊訊號,而且網頁中大量原生 SVG 元素可直接作為訓練資料
- SVG 圖形資源:從網上收集原生 SVG 檔案,經過 svgo 清洗、去重(代碼級 + 感知雜湊)、複雜度均衡取樣
- 通用視覺資料:保持模型的通用視覺能力
特別值得注意的是 SVG 資料的處理——同一張圖可以有無數種不同的 SVG 寫法(代碼不唯一),論文中透過標準化(canonicalization)、viewBox 標準化、複雜度控制等手段來解決這個問題。
評估方法:OCR Arena
傳統的 WER、NED 等指標對文件解析來說太脆弱了——格式稍有不同就會被過度懲罰。論文提出了OCR Arena評估框架:
- 用 Gemini 3 Flash 作為裁判
- 兩兩對比模型輸出
- 雙向評估(AB 和 BA 各評一次)消除位置偏差
- 用 Elo 評分系統(類似棋類比賽排名)生成最終排行
- 1000 次 bootstrap 重取樣確保統計穩健性
這套評估方法本身就極具參考價值。
實際效果展示
來看看幾個實際的解析案例:
▲ 圖 4:dots.mocr 在各種複雜文件上的版面分析結果——學術論文、報紙、表格、多語言文件都能準確識別。
▲ 圖 5:dots.mocr-svg 的圖形解析效果。輸入各種圖示圖片,輸出可渲染的 SVG 代碼,重建品質極高。
幾個關鍵數字
| 指標 | 成績 |
|---|---|
| 模型參數 | 3B(視覺 1.2B + 語言 1.5B + 連接器) |
| 最大輸入解析度 | 約 1100 萬像素 |
| olmOCR-Bench | 83.9(新 SOTA) |
| OCR Arena 排名 | 開源第一,總榜僅次於 Gemini 3 Pro |
| 圖形→SVG | 多個 benchmark 超越 Gemini 3 Pro |
我的思考
這不只是 OCR 的進步,而是「文件理解」定義的擴展
過去大家談到文件解析,預設就是「提取文字」。MOCR 把界線推到了「提取一切可結構化的資訊」。這對下游的 RAG、知識庫建構、多模態預訓練資料生產都有直接影響。
SVG 作為統一表示的巧妙之處
為什麼選擇 SVG 而不是其他格式?因為 SVG 是:
- 可渲染的:瀏覽器直接打開
- 可編輯的:可以修改顏色、大小、文字
- 可搜尋的:SVG 內的文字是真實文字
- 可組合的:多個 SVG 可以拼接
- 自描述的:代碼本身就是結構化表示
用 SVG 作為圖形解析的統一輸出格式,是非常優雅的設計選擇。
資料工程 >> 模型規模
3B 模型能打贏遠大於自己的通用大型模型,核心不在於模型架構有多創新,而在於:
- 從零訓練的高解析度視覺編碼器
- 精心設計的多階段訓練策略
- 極其用心的資料引擎
這再次印證了一個產業共識:在特定任務上,只要資料品質與工程做到位,小型模型完全可以碾壓大型模型。
局限性
論文也誠實指出:目前文件解析與 SVG 解析還需要分兩次執行(非一次端到端),後續應該能統一成一次推理。此外在老舊掃描件、頁首頁尾等情境還有進步空間。
總結
MOCR 是文件解析領域真正的範式轉移——從「只看文字」到「萬物皆可解析」。小紅書團隊不僅提出這個新範式,更用一個 3B 的小型模型證明了其可行性與競爭力。
程式碼與模型皆已開源,如果你從事文件智能相關工作,這篇論文與這個模型值得深入研究和關注。
📄 論文:https://arxiv.org/abs/2603.13032
💻 程式碼:https://github.com/rednote-hilab/dots.mocr
本文由 AI 輔助生成,已通過人工審核校對。