小紅書が「万物すべて OCR 可能」を実現:30 億パラメータの小型モデルが巨大モデルを凌駕、チャートもコードへ変換可能に

論文:Multimodal OCR: Parse Anything from Documents
機関:華中科技大学 & 小紅書 hi lab
リンク:https://arxiv.org/abs/2603.13032
コード:https://github.com/rednote-hilab/dots.mocr

一言で要約

小紅書チームは、ドキュメント解析の新たなパラダイム「Multimodal OCR (MOCR)」を提案しました。その中核となるアイデアは極めてシンプルでありながら、破壊的なインパクトを持っています。ドキュメント内のチャート、アイコン、UI インターフェース、化学構造式などを、もはや「画像」として切り取って捨てるのではなく、実行可能な SVG コードとして直接解析してしまうというものです。

彼らはわずか 30 億パラメータのモデル「dots.mocr」を訓練し、ドキュメント解析と図形の構造化という 2 つの分野で驚異的な成果を上げました。

MOCR の概要

▲ 図 1:MOCR の概要。ドキュメント画像を入力すると、統一された構造化表現を出力します。テキストは Markdown へ、チャートは SVG コードへ変換されます。


なぜこの論文に注目すべきか

1. 単なる SOTA の更新ではなく、新パラダイムの提示

従来の OCR システム(最近話題の各種ドキュメント向け巨大モデルを含む)の動作は以下の通りです。

  • テキスト → テキストとして認識 ✅
  • → 構造化マークアップとして認識 ✅
  • チャート/アイコン/フローチャート/UI スクリーンショット → 画像として切り取り、それで終わり ❌

これは、ドキュメント内に存在する情報量の多い図形要素の多くが、ブラックボックスとして捨てられていることを意味します。得られる「解析結果」は本質的に有損なものなのです。

MOCR は「それはダメだ。図も解析すべきだ」と主張します。しかも、単なる説明文を生成するのではなく、レンダリング可能な SVG コードを直接出力します。ブラウザで開いたり、編集したり、再構成したりすることが可能です。

従来の OCR と MOCR の比較

▲ 図 2:従来の OCR はテキストのみを扱い、図形はピクセルごと切り捨てていました。一方 MOCR は、図形も構造化された SVG コードとして解析し、真の意味での「無損失」ドキュメント解析を実現します。

これは単に「性能が向上した」というレベルではなく、「ドキュメント解析が何を行うべきか」という定義そのものを書き換えるものです。

2. 30 億パラメータのモデルが巨大モデル群を撃破

成績表をご覧ください。

性能比較

▲ 図 3:ドキュメント解析と図形解析の 2 分野における dots.mocr の総合パフォーマンス。

ドキュメント解析(従来型 OCR の分野):

  • OCR Arena Elo ランキングにて、Gemini 3 Pro に次ぐ 2 位を獲得。すべてのオープンソースモデルを上回りました。
  • olmOCR-Bench にて83.9を記録し、新たな SOTA(最高記録)を樹立。
  • arXiv 論文、表、多段組みレイアウトなどのカテゴリで最高得点をマーク。

図形の構造化解析(SVG 分野):

  • チャート→SVG、UI→SVG、科学イラスト→SVG、化学構造→SVG など複数のベンチマークにおいて
  • Gemini 3 Pro を完全に凌駕しました。

わずか 30 億パラメータのモデルが、図形解析において Gemini 3 Pro を打ち負かしたのです。これが意味するところは、特定のタスクに特化したアーキテクチャ設計とデータエンジニアリングを行えば、汎用巨大モデルを圧倒できるという事実です。

3. 小紅書発、産業界のガチンコ研究

本論文は小紅書の hi lab によるもので、第 1 著者および筆頭対応著者は、OCR・ドキュメント理解分野のトップチームである華中科技大学の白翔教授率いるチームの出身です。コードとモデルはすべて公開されています。

小紅書自体が膨大な量の画像付きテキストコンテンツの理解とインデックス化を必要としており、MOCR は単なる論文にとどまらず、同社のコンテンツ理解パイプラインの中核的なアップグレードとなる可能性が高いでしょう。


技術詳細の解説

アーキテクチャ:大型ビジョンエンコーダー+小型言語デコーダー

dots.mocrのアーキテクチャ設計は非常に興味深いものです。

  • ビジョンエンコーダー:12 億パラメータ。既存モデルの微調整ではなく、ゼロから完全訓練を実施。ネイティブで約 1100 万画素という超高解像度入力をサポート。
  • 言語デコーダー:Qwen2.5-1.5B。チャット版ではなく base バージョンを初期値として使用。
  • 軽量コネクタ:ビジョンと言語を接続。

なぜビジョンエンコーダーがこれほど大きいのでしょうか。ドキュメント解析では、小さな文字のテキストを認識すると同時に、図形要素(チャート上のマーカー点やフローチャートの接続線など)を正確に特定する必要があるため、解像度への要求が極めて高いからです。

なぜチャットモデルではなく base モデルを使うのでしょうか。MOCR が生成するのは極めて構造化されたシーケンス(Markdown、LaTeX、SVG コード)であり、これは「対話」とは全く異なる出力分布を持つため、base モデルから訓練を始めるのが適切だからです。

訓練戦略:3 段階の漸進的プレトレーニング

  1. 第 1 段階:汎用的なビジョン - 言語のアライメントを行い、言語モデルに「画像を見る」ことを学習させる。
  2. 第 2 段階:ハイブリッド訓練。汎用ビジョンデータとテキストドキュメント解析を組み合わせ、強力な文字 OCR 能力を構築。
  3. 第 3 段階:MOCR 特有のタスク、特に図形→SVG 解析の比重を高める。

これら 3 つの段階を経て、より困難なタスク要件に合わせて入力解像度を段階的に向上させています。

プレトレーニングの後には指示チューニング(SFT)が行われ、2 つのバージョンが用意されています。

  • dots.mocr:汎用バージョン。ドキュメント解析と図形解析がバランスよく構成。
  • dots.mocr-svg:SVG 強化バージョン。SFT 段階で SVG データの比率を向上。

データエンジン:4 つの主要データソース

ここがこの論文で最も学ぶべき部分かもしれません。つまり「データエンジニアリングがモデルの上限を決める」ということです。

  1. PDF ドキュメント:自社開発の dots.ocr を用いて自動アノテーションを実施。言語、分野、レイアウトの複雑さに応じて階層的にサンプリング。
  2. Web レンダリング:Web ページをクロールして画像としてレンダリング。HTML/DOM 構造が自然なアライメント信号を提供し、かつ Web 上には元から SVG 要素が多数存在するため、そのまま訓練データとして活用可能。
  3. SVG グラフィックスリソース:Web 上からネイティブの SVG ファイルを収集。svgo によるクリーニング、重複排除(コードレベルおよび知覚的ハッシュ)、複雑度の均等化サンプリングを実施。
  4. 汎用ビジョンデータ:モデルの汎用的なビジョン能力を維持するため。

特筆すべきは SVG データの処理です。同じ 1 つの図でも、SVG の書き方は無数に存在します(コードの一意性が保証されない)。論文ではこれを正規化(キャノニカライゼーション)、viewBox の標準化、複雑度の制御などの手法で解決しています。

評価手法:OCR Arena

従来の WER(単語誤り率)や NED(正規化編集距離)などの指標は、ドキュメント解析には脆すぎました。フォーマットが少し異なるだけで過度にペナルティが科されてしまいます。そこで論文では「OCR Arena」という評価フレームワークを提案しました。

  • Gemini 3 Flash を審判として採用。
  • モデルの出力同士を一対一で比較。
  • 位置によるバイアスを排除するため、双方向評価(AB と BA の両方を評価)を実施。
  • Elo レーティングシステム(チェスなどの競技ランキングに類似)を使用して最終ランキングを生成。
  • 統計的な堅牢性を確保するため、1000 回のブートストラップ再サンプリングを実施。

この評価手法そのものにも、大いに参考にする価値があります。


実際の効果デモ

いくつかの実際の解析事例を見てみましょう。

レイアウト解析の効果

▲ 図 4:複雑な各種ドキュメントにおける dots.mocr のレイアウト解析結果。学術論文、新聞、表、多言語ドキュメントを正確に識別可能です。

SVG 解析の効果

▲ 図 5:dots.mocr-svg による図形解析の効果。様々なアイコン画像を入力すると、レンダリング可能な SVG コードが出力され、極めて高い品質で再構築されます。


重要な数値まとめ

指標成果
モデルパラメータ数30 億(ビジョン 12 億+言語 15 億+コネクタ)
最大入力解像度約 1100 万画素
olmOCR-Bench83.9(新 SOTA)
OCR Arena ランキングオープンソースで 1 位。全体でも Gemini 3 Pro に次ぐ 2 位
図形→SVG複数のベンチマークで Gemini 3 Pro を凌駕

考察

これは OCR の進歩であるだけでなく、「ドキュメント理解」の定義拡張である

これまでドキュメント解析といえば、デフォルトで「文字の抽出」を意味していました。MOCR はその境界を「構造化可能なすべての情報の抽出」にまで押し広げました。これは下流の RAG(検索拡張生成)や知識ベースの構築、マルチモーダルな学習用データ生成に直接的な影響を与えます。

統一表現としての SVG の巧妙さ

なぜ他の形式ではなく SVG が選ばれたのでしょうか。それは SVG には以下の特性があるからです。

  • レンダリング可能:ブラウザで直接開ける。
  • 編集可能:色、サイズ、テキストの変更が可能。
  • 検索可能:SVG 内のテキストは実テキストとして扱われる。
  • 結合可能:複数の SVG を連結できる。
  • 自己記述的:コードそれ自体が構造化表現となっている。

図形解析の統一出力形式として SVG を採用したのは、非常にエレガントな設計選択だと言えます。

モデル規模よりデータエンジニアリング

30 億パラメータのモデルが、遥かに巨大な汎用モデルに勝利できた核心は、アーキテクチャの革新性ではなく、以下の点にあります。

  • ゼロから訓練された高解像度ビジョンエンコーダー
  • 入念に設計された多段階の訓練戦略
  • 極めて丁寧なデータエンジン

これは「特定のタスクにおいては、データの質とエンジニアリングを徹底すれば、小型モデルでも巨大モデルを圧倒できる」という業界の共通認識を再確認させるものです。

限界点

論文でも率直に指摘されていますが、現状ではドキュメント解析と SVG 解析を2 回実行する必要があります(ワンステップのエンドツーエンドではない)。今後は 1 回の推論で完結するように統合される見込みです。また、古いスキャンデータやヘッダー・フッターなどのシナリオでは、まだ改善の余地があります。


結論

MOCR はドキュメント解析分野における真のパラダイムシフトです。「文字しか見ない」状態から「万物すべて解析可能」へと進化しました。小紅書チームはこの新パラダイムを提案しただけでなく、30 億パラメータの小型モデルでその実現可能性と競争力を証明しました。

コードとモデルは公開されています。ドキュメントインテリジェンス関連の業務に携わっている方にとって、この論文とモデルは研究する価値が大いにあるでしょう。

📄 論文:https://arxiv.org/abs/2603.13032
💻 コード:https://github.com/rednote-hilab/dots.mocr

本記事は AI による支援を受け生成され、人間による査読・校正済みです。

関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.