小紅書推出「萬物皆可 OCR」：3B 小型模型逆襲眾多大型模型，圖表也能解析成代碼

論文：Multimodal OCR: Parse Anything from Documents
機構：華中科技大學 & 小紅書 hi lab
連結：https://arxiv.org/abs/2603.13032
程式碼：https://github.com/rednote-hilab/dots.mocr

一句話總結

小紅書團隊提出了一個全新的文件解析範式——Multimodal OCR (MOCR)，核心思想很簡單但極具顛覆性：文件裡的圖表、圖示、UI 介面、化學分子式……通通不再當成「圖片」裁切後丟棄，而是直接解析成可執行的 SVG 代碼。

他們訓練了一個僅 3B 參數的模型 dots.mocr，在文件解析與圖形結構化兩個方向都創下驚人佳績。

▲ 圖 1：MOCR 概覽。輸入一張文件圖片，輸出統一的結構化表示——文字轉為 Markdown，圖表轉為 SVG 代碼。

為什麼這篇論文值得關注？

1. 提出新範式，不只是刷新 SOTA

傳統 OCR 系統（包含近期火紅的各種文件大型模型）的運作方式如下：

文字 → 識別成文字 ✅
表格 → 識別成結構化標記 ✅
圖表/圖示/流程圖/UI 截圖 → 裁切成圖片，結束 ❌

這代表文件中大量具備資訊量的圖形元素，實際上被當作黑盒丟棄。你拿到的「解析結果」其實是有損的。

MOCR 說：不行，圖也要解析。而且不是生成一段文字描述，而是直接輸出可渲染的 SVG 代碼——你可以用瀏覽器打開它、編輯它、重新組合它。

▲ 圖 2：傳統 OCR 只管文字，圖形直接裁成像素丟掉；MOCR 把圖形也解析成結構化的 SVG 代碼，實現真正的「無損」文件解析。

這不僅僅是「做得更好」，而是重新定義了「文件解析應該做什麼」。

2. 3B 模型打敗一堆大型模型

來看看成績單：

▲ 圖 3：dots.mocr 在文件解析與圖形解析兩個方向的綜合表現。

文件解析（傳統 OCR 方向）：

在 OCR Arena Elo 排行榜上，僅次於 Gemini 3 Pro，超越所有開源模型
在 olmOCR-Bench 上取得 83.9 的新 SOTA
在 ArXiv 論文、表格、多欄排版等類別拿下最高分

圖形結構化解析（SVG 方向）：

在圖表→SVG、UI→SVG、科學插圖→SVG、化學結構→SVG 等多個 benchmark 上
全面超越 Gemini 3 Pro

一個 3B 的模型，在圖形解析上打敗了 Gemini 3 Pro。這說明了什麼？代表針對性的架構設計與資料工程，在特定任務上可以碾壓通用大型模型。

3. 小紅書出品——工業界的硬核研究

這篇論文來自小紅書的 hi lab，第一作者與通訊作者來自湖北武漢的華中科技大學白翔教授團隊（OCR/文件理解領域的頂尖團隊）。程式碼與模型已全部開源。

小紅書本身就有海量的圖文內容需要理解與索引，MOCR 很可能不只是一篇論文，而是他們在內容理解管線上的核心升級。

技術細節拆解

架構：大型視覺編碼器 + 小型語言解碼器

dots.mocr 的架構設計相當有趣：

視覺編碼器：1.2B 參數，完全從零訓練（非微調既有模型），支援高達約 1100 萬像素的原生高解析度輸入
語言解碼器：Qwen2.5-1.5B，使用 base 版本而非 chat 版本作為初始化
輕量連接器：連結視覺與語言

為什麼視覺編碼器這麼大？因為文件解析需要同時看清小字體文字與精確定位圖形元素（圖表中的標記點、流程圖中的連線），這對解析度要求極高。

為什麼使用 base 模型而非 chat 模型？因為 MOCR 需要生成的是高度結構化的序列（Markdown、LaTeX、SVG 代碼），這跟「對話」是完全不同的輸出分布，從 base 模型開始訓練更合適。

訓練策略：三階段漸進式預訓練

第一階段：通用視覺 - 語言對齊，讓語言模型學會「看圖」
第二階段：混合訓練——通用視覺資料 + 文字文件解析，建立強大的文字 OCR 能力
第三階段：加大 MOCR 特有任務的比重，特別是圖形→SVG 解析

三個階段逐步提升輸入解析度，匹配越來越困難的任務需求。

預訓練之後還有指令微調（SFT），分為兩個版本：

dots.mocr：通用版本，文件解析與圖形解析均衡
dots.mocr-svg：SVG 強化版，在 SFT 階段加大 SVG 資料比例

資料引擎：四大資料來源

這可能是整篇論文最值得學習的部分——資料工程決定模型上限。

PDF 文件：用自家的 dots.ocr 進行自動標註，依語言/領域/版面複雜度分層取樣
網頁渲染：爬取網頁並渲染成圖片，HTML/DOM 結構天然提供對齊訊號，而且網頁中大量原生 SVG 元素可直接作為訓練資料
SVG 圖形資源：從網上收集原生 SVG 檔案，經過 svgo 清洗、去重（代碼級 + 感知雜湊）、複雜度均衡取樣
通用視覺資料：保持模型的通用視覺能力

特別值得注意的是 SVG 資料的處理——同一張圖可以有無數種不同的 SVG 寫法（代碼不唯一），論文中透過標準化（canonicalization）、viewBox 標準化、複雜度控制等手段來解決這個問題。

評估方法：OCR Arena

傳統的 WER、NED 等指標對文件解析來說太脆弱了——格式稍有不同就會被過度懲罰。論文提出了OCR Arena評估框架：

用 Gemini 3 Flash 作為裁判
兩兩對比模型輸出
雙向評估（AB 和 BA 各評一次）消除位置偏差
用 Elo 評分系統（類似棋類比賽排名）生成最終排行
1000 次 bootstrap 重取樣確保統計穩健性

這套評估方法本身就極具參考價值。

實際效果展示

來看看幾個實際的解析案例：

▲ 圖 4：dots.mocr 在各種複雜文件上的版面分析結果——學術論文、報紙、表格、多語言文件都能準確識別。

▲ 圖 5：dots.mocr-svg 的圖形解析效果。輸入各種圖示圖片，輸出可渲染的 SVG 代碼，重建品質極高。

幾個關鍵數字

指標	成績
模型參數	3B（視覺 1.2B + 語言 1.5B + 連接器）
最大輸入解析度	約 1100 萬像素
olmOCR-Bench	83.9（新 SOTA）
OCR Arena 排名	開源第一，總榜僅次於 Gemini 3 Pro
圖形→SVG	多個 benchmark 超越 Gemini 3 Pro

我的思考

這不只是 OCR 的進步，而是「文件理解」定義的擴展

過去大家談到文件解析，預設就是「提取文字」。MOCR 把界線推到了「提取一切可結構化的資訊」。這對下游的 RAG、知識庫建構、多模態預訓練資料生產都有直接影響。

SVG 作為統一表示的巧妙之處

為什麼選擇 SVG 而不是其他格式？因為 SVG 是：

可渲染的：瀏覽器直接打開
可編輯的：可以修改顏色、大小、文字
可搜尋的：SVG 內的文字是真實文字
可組合的：多個 SVG 可以拼接
自描述的：代碼本身就是結構化表示

用 SVG 作為圖形解析的統一輸出格式，是非常優雅的設計選擇。

資料工程 >> 模型規模

3B 模型能打贏遠大於自己的通用大型模型，核心不在於模型架構有多創新，而在於：

從零訓練的高解析度視覺編碼器
精心設計的多階段訓練策略
極其用心的資料引擎

這再次印證了一個產業共識：在特定任務上，只要資料品質與工程做到位，小型模型完全可以碾壓大型模型。

局限性

論文也誠實指出：目前文件解析與 SVG 解析還需要分兩次執行（非一次端到端），後續應該能統一成一次推理。此外在老舊掃描件、頁首頁尾等情境還有進步空間。

總結

MOCR 是文件解析領域真正的範式轉移——從「只看文字」到「萬物皆可解析」。小紅書團隊不僅提出這個新範式，更用一個 3B 的小型模型證明了其可行性與競爭力。

程式碼與模型皆已開源，如果你從事文件智能相關工作，這篇論文與這個模型值得深入研究和關注。

📄 論文：https://arxiv.org/abs/2603.13032
💻 程式碼：https://github.com/rednote-hilab/dots.mocr

本文由 AI 輔助生成，已通過人工審核校對。