智源 ArXiv CLI が本格的にオープンソース化！2 億件以上のオープンアクセス論文が、研究用 AI エージェントの「スキルパック」に進化

執筆：智源研究院

DeepXiv は、AI エージェント専用に設計された科学文献インフラです。論文検索、段階的読解、トレンド追跡、深層調査を、呼び可能・編成可能・自動化可能な機能へと変換します。単に論文サイトをコマンドラインへ移植しただけのものではなく、科学文献そのものをエージェントが直接消費できるデータインターフェースおよびスキルシステムへと昇華させるものです。

DeepXiv は智源研究院が大学やコミュニティの開発者と共同で開発したプロジェクトで、現在オープンソース化され、無料で利用可能です。

リソースリンク
GitHub：https://github.com/DeepXiv/deepxiv_sdk
PyPI：https://pypi.org/project/deepxiv-sdk/
API ドキュメント：https://data.rag.ac.cn/api/docs
技術報告書：https://arxiv.org/abs/2603.00084

はじめに

大規模言語モデル（LLM）を中核とする AI エージェントの急速な発展に伴い、AI 駆動型の自動化研究（Autonomous Research）は概念から現実へと急速に歩み出しています。

科学的課題の自動発見から研究計画の生成、理論手法の設計、実験探究の実施に至るまで、研究用 AI エージェントは科学研究のパラダイムを全体的かつ根本的に再構築しつつあります。

しかし、エージェントが真に科学研究に貢献するためには、解決を急ぐべき根本的な技術的ボトルネックが存在します。

「エージェントはいかにして科学文献を効率的に活用できるか？」

智源研究院はこの核心的な課題をいち早く洞察しました。現在、科学文献の利用方法は依然として人間ユーザー向けに設計されたままです。従来の手法では、エージェントは関連論文を取得するために煩雑なインターネット検索やウェブページの解析を余儀なくされ、さらに高度に視覚化された論文から有効な情報を抽出するためには複雑なリーディングツールへの依存を避けられません。

検索エンジン（Search Engine）とグラフィカルユーザーインターフェース（GUI）に依存するこのインフラは、エージェントの動作様式と著しく不整合であり、その作業成果と実行効率を著しく制約しています。

言い換えれば、我々は膨大な量のオープンアクセス科学文献を有しながらも、エージェント向けの「科学文献インフラ」を欠いているのが実情です。

かつての論文が単に「人間が読むもの」であったとすれば、今は「エージェントが読むもの」という新たな需要にも応える必要があります。

ここで有効なアプローチとなるのが、論文を CLI（コマンドラインインターフェース）化し、エージェントが容易に取得・活用できるようにするという発想です。

そこで智源研究院は、大学やオープンソースコミュニティと連携し、論文を CLI 対話に適応させ、専用文献インフラを構築するという中核的アプローチを提示しました。膨大なオープンアクセス論文とエージェントとの連携の壁を打ち破り、自動化研究のための基盤を強固に築くことを目指します。

DeepXiv とは

DeepXiv はエージェント向けの科学文献統合ツールキットであり、その目標はオープンアクセス科学文献を「人間が読める状態」から「エージェントが利用可能な状態」へと進化させることです。

このため、DeepXiv は以下の 3 つの中核機能を備えています。

1. データ連携：オープンアクセス科学文献を「エージェントが消費可能なデータ」へ

DeepXiv は JSON や Markdown など、エージェントに親和性の高いデータ形式をネイティブサポートしています。論文データは直接読み取り・利用可能となり、エージェントは複雑な PDF や HTML ファイルから情報を「苦労して抽出する」必要がなくなります。さらに、タイトル、著者、要約、参考文献などのメタ情報も直接取得可能で、論文利用が格段に容易になります。

また、エージェントにとっての真の課題は、いかに情報を取得するかだけでなく、限られたコンテキストウィンドウと推論予算の中で、いかに正確に情報を利用するかという点にあります。これを受け、DeepXiv はエージェント最適化されたデータ構成を提供します。例えばプレビュー（Preview）機能では論文の核心情報を迅速に取得し、低コストで関連性を判断。さらにチャンキング（Chunking）機能により、構造や意味内容に基づいて論文を分割し、部分的な精読を可能にします。全体の読解プロセスにおいてはプログレッシブ・ディスクロージャー（Progressive Disclosure）を実装。まずは少量の情報を提示し、必要に応じて展開することで、長文を一気に投入することを防ぎます。

これらの設計がもたらす価値は明白です。トークン消費の削減、検索・読解効率の向上、そして複雑な多段階研究タスクへの対応を可能にし、エージェントが真に価値ある情報に集中できるようになります。

これは理念だけの話ではなく、具体的な呼び出し方として実装されています。新しい研究テーマにおいて、エージェントが自然にとる行動は、最初から論文全体を読み込むことではなく、候補文献を検索し、継続する価値があるかを素早く判断し、最後に真に重要な部分のみを展開することです。例えば以下のようになります。

# 工具包のインストール
pip install deepxiv-sdk

# 研究テーマの検索
deepxiv search "agent memory"

# 要約と要点を素早く確認
deepxiv paper 2602.16493 --brief

# 構造と章立てを確認
deepxiv paper 2602.16493 --head

# 実験セクションのみを閲覧
deepxiv paper 2602.16493 --section "Experiments"

この一連のコマンドは、実際の研究プロセスに極めて合致した文献活用パスを表しています。

searchで候補論文を発見
--briefで論文の核心情報をプレビューし、極めて低コストで論文の価値を判断
--headでエージェントが全文の構造と章立てを把握
--sectionで Introduction、Method、Experiments といった最も価値のあるコンテンツを必要に応じて読解

その結果、単に「読む量を減らす」だけでなく、エージェントが情報の価値に基づいてトークン予算を配分する能力を真に獲得することになります。

DeepXiv が返す論文コンテンツは、解析済みの Markdown または JSON 形式であり、エージェントもストレスなく読解可能です。以下は--briefおよび--headコマンドの戻り値の例です。

# deepxiv paper 2602.16493 --brief コマンドの戻り値例
📄 MMA: Multimodal Memory Agent
🆔 arXiv: 2602.16493
📅 Published: 2026-02-18T00:00:00
📊 Citations: 0
🔗 PDF: https://arxiv.org/pdf/2602.16493
💻 GitHub: https://github.com/AIGeeksGroup/MMA
🏷️ Keywords: memory-level reliability, temporal decay, conflict-aware consensus, epistemic prudence, visual placebo effect
💡 TLDR:
[research paper] MMA introduces a memory-level reliability framework that dynamically scores retrieved items using source credibility, temporal decay, and conflict-aware network consensus to mitigate overconfidence from stale or inconsistent memories. It reveals the 'Visual Placebo Effect'—where RAG agents generate unwarranted certainty from ambiguous visual inputs due to latent biases in foundation models—and demonstrates superior performance on FEVER (35.2% lower variance), LoCoMo (higher actionable accuracy, fewer wrong answers), and MMA-Bench (41.18% Type-B accuracy vs. 0.0% baseline) under epistemic-aware evaluation protocols that reward abstention and penalize overconfidence.

// deepxiv paper 2602.16493 --head コマンドの戻り値例 (JSON)
{
  "arxiv_id": "2602.16493",
  "title": "MMA: Multimodal Memory Agent",
  "abstract": "Long-horizon multimodal agents depend on external memory; however, similarity-based retrieval often surfaces stale, low-credibility, or conflicting items, which can trigger overconfident errors. We propose Multimodal Memory Agent (MMA), which assigns each retrieved memory item a dynamic reliability score by combining source credibility, temporal decay, and conflict-aware network consensus, and uses this signal to reweight evidence and abstain when support is insufficient. We also introduce MMA-Bench, a programmatically generated benchmark for belief dynamics with controlled speaker reliability and structured text-vision contradictions. Using this framework, we uncover the \"Visual Placebo Effect\", revealing how RAG-based agents inherit latent visual biases from foundation models. On FEVER, MMA matches baseline accuracy while reducing variance by 35.2% and improving selective utility; on LoCoMo, a safety-oriented configuration improves actionable accuracy and reduces wrong answers; on MMA-Bench, MMA reaches 41.18% Type-B accuracy in Vision mode, while the baseline collapses to 0.0% under the same protocol. Code: https://github.com/AIGeeksGroup/MMA.",
  "authors": [
    {
      "misc": {},
      "name": "Yihao Lu",
      "orgs": ["School of Computer Science, Peking University"]
    }
  ],
  "token_count": 17386,
  "sections": [
    {
      "name": "Introduction",
      "idx": 0,
      "tldr": "MMA introduces a memory-level confidence scoring framework that uses source credibility, temporal decay, and conflict-aware consensus to prioritize reliable memories and prevent retrieval traps, while introducing an incentive-aligned benchmark that rewards epistemic prudence and calibrated abstention.",
      "token_count": 1098
    }
  ],
  "categories": ["cs.CV"],
  "publish_at": "2026-02-18T00:00:00",
  "keywords": ["memory-level reliability", "temporal decay", "conflict-aware consensus"],
  "tldr": "[research paper] MMA introduces a memory-level reliability framework...",
  "github_url": "https://github.com/AIGeeksGroup/MMA"
}

DeepXiv は ArXiv の全データを網羅しており、毎日增量更新されています。

同時に、DeepXiv は PubMed Central (PMC)、ACM、bioRxiv / medRxiv / ChemRxiv などの各種 *Rxiv、そして Semantic Scholar を含む、より多くのオープンアクセス文献源へ急速に展開しています。最終的には 2 億件以上のオープンアクセス科学文献をカバーする統一されたエージェントアクセス層の確立を目指します。

この拡張は単に「データを取り込んだ」だけで終わるものではなく、エージェント向けの統一されたサービス提供方法を継続して適用します。例えば PMC のシナリオでも、エージェントは同様のコマンドで論文コンテンツを直接取得できます。

# 全文構造の確認
deepxiv pmc PMC544940 --head

# 全文 JSON の取得
deepxiv pmc PMC544940

これは、より多くのオープンアクセス文献源が接続されるにつれて、エージェントが直面するのがバラバラで呼び出し方も異なる新しいインターフェース群ではなく、再利用可能・移植可能・自動編成可能な文献活用方法が維持されることを意味します。言い換えれば、将来 ArXiv、PMC、あるいはその他の *Rxiv や OA データソースであれ、可能な限り一貫した方法でエージェントに対しサービス能力を開放し続けます。

2. ワンストップ機能統合：検索だけでなく「エージェントの作業を支援」

DeepXiv は独自の論文検索エンジンを内蔵し、最適化された検索結果と設定可能な検索モードを提供します。しかし、単に論文を「探し出す」だけでは不十分です。検索機能に基づき、DeepXiv はさらに豊富なスキルを構築しています。QA 機能においては、文献に基づいた情報抽出と理解を直接実行。「論文の中核的な貢献は何か？」「実験設定や対照ベースラインは何か？」といった問いに答え、文献の深い理解を実現します。また、ホットなトピックの追跡も可能で、毎日・毎週・毎月のあるトピックに関する注目論文を把握できます。複雑な問題に対しては深層調査を実施。「過去 3 年間の Agent Memory に関する代表的な研究は何か？」「金融シナリオにおけるマルチモーダル検索強化の公開ベンチマークやデータセットは何か？」といった問いにも答えます。

DeepXiv のスキルパックは今も拡張中であり、エージェントは内蔵スキルやコマンドラインの--helpメカニズムを通じてこれを認識し、柔軟に呼び出すことができます。

この「単なる検索にとどまらず、タスク中心に機能を呼び出す」という特徴は、実際の使用場面でより顕著になります。例えば、典型的なトレンド追跡プロセスは以下のようになります。

# 全文構造の確認
deepxiv pmc PMC544940 --head
# 全文 JSON の取得
deepxiv pmc PMC544940

直近 1 週間で最もホットな論文プールを抽出し、個々の論文内容を素早くプレビューした上で、SNS 等での拡散状況も補足します。次に、エージェントはこのフローを引き継ぎ、要約、選別、ランキング、週報の生成までを完了できます。

また、新しい研究テーマに参入するタスクも非常にダイレクトです。

# テーマ関連論文の検索
deepxiv search "agentic memory" --limit 20
# 全文構造の確認
deepxiv paper 2506.07398 --head
# 重要章の精読
deepxiv paper 2506.07398 --section Experiments

候補論文を見つけ、構造を確認し、最後に最も重要な実験セクションのみを読み込みます。必要に応じて、エージェントはインターネット検索を呼び出して一般的な Web 情報を補完したり、Semantic Scholar データベースから論文メタデータを取得したりすることも可能です。つまり DeepXiv が提供するのは孤立したコマンドではなく、エージェントが連続して呼び出せる研究タスク機能のセットなのです。

# インターネット検索の呼び出し
deepxiv wsearch "agent memory"
# Semantic Scholar メタデータの取得
deepxiv sc 161990727

さらにこれらの機能を 1 つのタスクとして完結させたい場合、DeepXiv には深層調査エージェント（Deep Research Agent）が内蔵されています。検索、選別、段階的読解、情報抽出、要約整理を一連のフローとして連結し、ユーザーが各ステップを手動でつなぐ手間を省きます。例えば、開発者は「最近の Agent Memory に関する代表的な研究は何か？」「過去 1 年で注目すべきマルチモーダル検索強化の論文は何か？」と直接問いかけることができます。これにより DeepXiv は基盤コマンドを提供するだけでなく、高次の研究タスクの一部を直接請け負うことが可能になります。もちろん、ユーザーは DeepXiv をスキルとしてカプセル化し、任意のエージェントに注入して、即座に研究作業を開始することもできます。

# 完全なツール依存関係のインストール
pip install "deepxiv-sdk[all]"

# API キーの設定
deepxiv agent config

# 深層調査の開始
deepxiv agent query "What are the latest papers about agent memory?" --verbose

3. 豊富な接続形態：エージェントから開発者まで、あらゆるシナリオのニーズに対応

DeepXiv は単一のツールに限定されることなく、エージェントから開発者までの多層的なニーズを満たすため、多様な接続形態を提供します。

第一に、CLI が DeepXiv の中核形態です。コマンドラインを通じて、エージェントは文献検索、論文取得、論文活用までの全機能にシームレスにアクセスでき、スクリプトを編成することでより複雑なワークフローを実現します。

deepxiv search "agent memory" --date-from 2026-03-02 --limit 50 --format json
deepxiv search "agentic memory" --date-from 2026-03-02 --limit 50 --format json
deepxiv search "memory agents long-horizon" --date-from 2026-03-02 --limit 50 --format json

第二に、DeepXiv は MCP（Model Context Protocol）接続機能も提供しており、これにより DeepXiv を様々なエージェント開発フレームワークに埋め込み、「科学文献の活用」をエージェントの標準ツールとすることができます。

第三に、ワークフローの深いカスタマイズを必要とする開発者向けに Python SDK を提供し、高度にカスタマイズされた研究用エージェントへの柔軟な統合を可能にします。

さらに重要なのは、deepxiv を基盤として、開発者が特定の研究タスク向けにカスタマイズされたスキルを非常に迅速にカプセル化できる点です。例えば、毎週特定の分野の新しい論文を自動追跡したり、オープンソースコード付きの研究を自動で選別したり、実験設定や結果を一括抽出したり、特定テーマのベースライン表を生成したり、さらには特定の研究方向のダイナミックな知識ベースを継続的に維持したりすることが可能です。これは DeepXiv が単に「呼び出し可能なツール」を提供するだけでなく、日常の研究ワークフローのために、迅速に再利用可能かつ持続的に拡張可能な機能基盤を提供していることを意味します。

実践デモ：Codex を使った 30 日以内の「Agent Memory」関連論文情報の整理

前述の機能説明が DeepXiv の「何ができるか」を表すものであるなら、その真価は実際的なタスクでいかにこれらの機能を連携させるかに現れます。

以下のデモは、非常に典型的かつ頻度の高い研究ニーズに対応するものです。

「ここ 1 か月の agent memory 関連の論文を整理して、どのデータセットで実行され、効果はどうで、オープンソース化されているかを確認してほしい」

このタスクは一見「数本の論文を見つけてまとめる」だけに見えますが、実際には一連のプロセスが含まれます。まず期間を直近 1 か月に限定。次にトピックで検索し、ノイズを処理。候補論文を 1 本ずつプレビューして、言葉面だけで関連しているが本筋ではないものを除外します。真に関連する論文を見つけたら、構造と実験セクションを確認し、ベンチマーク、指標、スコア、コードリンクなどの重要情報を抽出。最後に、納品可能で編集可能な Markdown 形式のベースライン表にまとめます。

エージェント向けのデータとツールサポートがなければ、このプロセスはウェブページの行き来、PDF めくり、コピペ、そして人手による表作成を意味します。しかし DeepXiv のワークフローでは、この作業は非常に自然な一連のアクションに分解できます。

ステップ 1：トピックと期間で候補論文を検索

まず、エージェントはユーザーのトピックに対して複数の類義語検索を実行し、1 つのクエリに依存することはありません。

こうする利点は、可能な限り多くの候補論文をリコールし、後続のステップでより低コストな方法で徐々に範囲を絞り込めることです。

このステップで、AdaMem、All-Mem、D-MEM、Memex(RL)、AndroTMem、LMEB といった関連性の高い論文をすばやく特定できると同時に、キーワードには引っかかるが Agent Memory の本筋ではない結果も識別できます。

ステップ 2：brief を使った低コストな選別

検索結果を最初から全編通読する必要はありません。より合理的なのはプレビューです。

deepxiv paper 2603.16496 --brief
deepxiv paper 2603.19595 --brief
deepxiv paper 2603.14597 --brief
deepxiv paper 2603.18429 --brief

--briefは、タイトル、日時、TL;DR、キーワード、GitHub リンクなど、最も重要な情報を抽出します。エージェントにとって、このステップの価値は極めて大きく、極めて少ないトークンコストで 1 次選別が完了します。「この論文は本当に agent memory を扱っているか」「手法論文か、ベンチマーク論文か、あるいはシステム/ガバナンス寄りか」「GitHub はあるか、優先的に読み進める価値があるか」といった判断が可能です。

まさにこのレイヤーで、エージェントは候補論文をメインセットとサブセットに素早く分類し、周辺的な関連結果に予算を浪費することを防ぎます。

ステップ 3：head で構造を確認し、実験関連セクションのみを読解

真に関連する論文を選別した後、次は「全文を投入する」のではなく、まず構造を確認し、ピンポイントで読み込みます。

deepxiv paper 2603.16496 --brief
deepxiv paper 2603.19595 --brief
deepxiv paper 2603.14597 --brief
deepxiv paper 2603.18429 --brief

このステップは、人間の研究者のプロセスに非常に似ています。例えば、人間ならまずどのセクションがあるかを確認し、実験パートが何と呼ばれているかを特定。そしてベンチマークやスコアが記載された Experiments、Results、Evaluation といった真に重要な部分のみを展開します。必要であれば、付録（Appendix）のデータセットや実験設定部分も補足して読みます。

例えば今回のタスクでは、エージェントは実験セクションから直接比較可能な多くの情報を抽出しました。

AdaMem は LoCoMo と PERSONAMEM で評価。LoCoMo は最高 44.65 F1、PERSONAMEM は平均精度 63.25%
AndroTMem は AndroTMem-Bench を提案。raw history、summary、ASM の 3 種類の history 表現を比較。Gemini-3-Flash は ASM で AMS 59.03 / TCR 65.05 を達成
Memex(RL) は改造済み ALFWorld でタスク成功率を 24.22% から 85.61% へ向上
Trajectory-Informed Memory Generation は AppWorld で held-out シナリオの SGC を 50.0 から 64.3 へ向上
LMEB はベンチマークとして 22 のデータセット、193 の zero-shot retrieval タスクを統合

つまり DeepXiv がここで提供しているのは単に「論文内容を出す」だけでなく、エージェントが「まず大まかな選別、次に構造的な位置特定、最後にピンポイントでの精読」という方法で文献を消費できるようにすることです。

ステップ 4：自動的に Markdown 形式のベースライン表を作成

論文、データセット、指標、スコア、オープンソースの有無が抽出されたら、最後はそれを構造化された成果物にまとめることです。

今回のデモでは、エージェントは最終的に以下の内容を含む Markdown 形式のテーブルに結果をまとめました。論文タイトルと arXiv リンク、オープンソースの有無、コードアドレス、使用されたベンチマーク/データセット、使用指標、コア結果と比較可能なスコア、論文の位置づけに関する簡潔な備考などです。

このステップが重要なのは、DeepXiv が単発の Q&A だけでなく、再利用可能な研究資産を提供していることを意味するからです。生成された Markdown ファイルは調査ドキュメントやスライド、週報へと書き換えたり、後続プロジェクトのベースライン起点として利用したりできます。

このスキルはプロジェクトに配置済みで、すぐに使用可能です。例えば、~/.codex/skills/ディレクトリにコピーするだけで、Codex 内で直接呼び出せます。

このデモが真に示すもの

この例の真に面白い点は、それが「技術を見せつけるため」のタスクではなく、非常に日常的で現実的な研究アクションであるということです。

研究者にとって「ここ 1 か月でこの分野からどんな仕事が出て、どのデータセットで実行され、効果はどうで、オープンソース化されているか」は高頻度のニーズです。DeepXiv はこれを、エージェントのワークフローに真に即した形で初めて実現しました。検索は構造化されウェブ解析は不要。プレビューは低コストで全文読解は不要。読解は段階的で、重要な章のみを展開。抽出結果は自然言語の要約にとどまらず、表や下流タスク向け。最終出力は保存・再利用・拡張が可能で、研究プロセスの中間生成物となります。

これこそが DeepXiv が解決したい中核的な課題です。論文を単に「コマンドラインに移す」のではなく、論文そのものをエージェントが呼び出し、選別し、読み、分析し、成果物として引き渡すことのできる「一等市民」として扱うことです。

従来の論文サイトが「人間がページを開いて自分で読む」ことを前提としているなら、DeepXiv がサービスするのは「研究タスクを中心に据え、エージェントが能動的に文献機能を呼び出し、成果物を引き渡す」ことです。