01
多Agentシステムの可視化IDE
以前Hacker NewsでRowboatというプロジェクトを見かけました。「多エージェントシステムのCursor」と謳っています。見てみると、なかなか面白いプロジェクトです。
RowboatはYCがインキュベートするオープンソースプロジェクトで、現在1.2万Starを獲得しています。
簡単に言えば、多エージェントシステムを構築するための可視化IDEで、Copilotがエージェント生成を補助してくれます。
コードを1行も書く必要はありません。自然言語での記述を入力するだけで、Copilotが多エージェントワークフローを構築してくれます。
構築後はAIシミュレーション環境でテストでき、問題がなければMCPサーバーや各種ツールに接続できます。
バックエンドにはOpenAIのAgents SDKを使用し、Slack、Linear、Jira、GitHub、ElevenLabs、Exaといった一般的なサービスと連携しています。
Python SDKとHTTP APIの両方で、ご自身の製品への統合が可能です。
AIカスタマーサポート、自動調査、社内業務フローを構築したいが、多エージェントフレームワークをゼロから学びたくないという場合、このプロジェクトは多くの時間を節約してくれます。
开源地址:https://github.com/rowboatlabs/rowboat
02
プログラミングAgentを本当のチームメイトにする
Multicaのアプローチは興味深いものです。LinearとAI Agentを組み合わせたような構成です。
現在、Claude CodeやCodexといったコーディングエージェントを使用する際、基本的にはターミナルに向かってプロンプトをコピー&ペーストし、タスクが完了するのを待ち、人間が監視するという流れになっています。
Multicaはこの手法を変更しようとしています。
エージェントをチームメンバーとして扱い、カンバンボードでタスクを割り当てるように、エージェントに実行を任せ、進捗を報告させ、ステータスを更新させ、問題が発生した場合はブロッカーを報告させます。
現在1.47万Starを獲得し、4月にアップデートされました。
主な機能には、タスクの完全なライフサイクル管理、WebSocketによるリアルタイム進捗ストリーミング、ワークスペースごとの独立した分離環境、ローカルデーモンとクラウドランタイムの混在利用が含まれます。
Claude Code、Codex、OpenCode、Gemini、Cursor Agentなど、多数のCLIと互換性があります。
そして解決策は自動的に再利用可能なスキルとして蓄積され、チームの能力が使用するごとに強化されていきます。
AIエージェントを使ってコードを書き始めているチームにとって、このプロジェクトは協業を整然とさせてくれます。
开源地址:https://github.com/multica-ai/multica
03
AIコーディングのエンジニアリング規範パッケージ
このプロジェクトの作者であるAddy Osmani氏は、Google Chromeチームのエンジニアリングリーダーで、『Learning JavaScript Design Patterns』の著者として知られるエンジニアです。
Agent Skillsが行っていることは非常に直接的です。ベテランエンジニアの開発規範を、AIが直接実行できるスキルとしてパッケージ化しています。
現在1.66万Starを獲得しています。
核となるのは、プロセス全体を貫く7つのスキルです。/spec(要件定義)、/plan(タスク分解)、/build(段階的実装)、/test(検証)、/review(品質チェック)、/code-simplify(簡略化)、/ship(デプロイ)です。
20のスキルがパッケージされており、フェーズごとに明確に分類されています。
基本的に、要件定義からリリースまでの完全なライフサイクルをカバーしています。
AIがコーディングする際に規範を無視して近道しがちですが、このプロジェクトは大手企業のエンジニアが持つ規律をエージェントに厳格に課すものです。
Claude Codeや類似のツールを使って実際のプロジェクトを行っている場合、このスキルセットは納品品質を大幅に向上させてくれます。
开源地址:https://github.com/addyosmani/agent-skills
04
AIプログラミングを再現可能にするワークフローエンジン
Archonはcoleam00氏によるオープンソースプロジェクトで、AIプログラミングのハーネスビルダーとして位置づけられており、現在1.84万Starを獲得しています。
これが解決しようとしている問題は、かなり切実なものです。
現在のAIプログラミングエージェントを実行すると、毎回結果が異なります。同じタスクでも、今日は計画段階を飛ばし、明日はテストを書き忘れ、明後日はPRテンプレートを無視してしまいます。
Archonが行っていることは、YAMLを使ってプロセスを固定化し、AIコーディングを確実に再現可能にすることです。
いくつかの設計が細かく考えられています。
ワークフローの実行ごとに独立したgit worktreeが作成され、複数のタスクを並列実行しても互いに汚染しません。
ノードは組み合わせ可能で、決定論的なbashスクリプト、テスト、AIによる計画やコード生成ノードを組み込むことができます。
17個のデフォルトワークフローが付属しており、機能開発、イシュー修正、PRレビュー、リファクタリングなどのテンプレートがあります。
これは単なるコマンドラインツールではなく、CLI、Web UI、Slack、Telegram、Discord、GitHubからトリガーすることができます。
チームはリポジトリに.archon/workflows/ディレクトリのYAMLファイルをコミットするだけで、全員が同じプロセスを使用できるようになります。
汎用自動化におけるn8nのような役割を、ArchonはAIコーディングの分野で担おうとしています。
开源地址:https://github.com/coleam00/Archon
05
香港大学がオープンソース化したAI家庭教師
DeepTutorは、香港大学Data Intelligence LabによるオープンソースのAI学習アシスタントで、現在1.88万Starを獲得しています。
5つの学習モードがあります。
ツール拡張付きチャット(RAG+ウェブ検索+コード実行)、複雑な問題を多エージェントで分解するDeep Solve、知識ベースに基づいて自動出題するQuiz Generation。
並列エージェントによる深度調査のDeep Research、数学の可視化を専門とするMath Animatorです。
最も興味深いのはTutorBotと呼ばれる機能で、各TutorBotは独立したワークスペースとキャラクター設定を持ち、自律的に実行できます。単純なチャットボットより一段階上の機能です。
また、Co-WriterというMarkdownエディタはAIを第一級の市民として統合し、Persistent Memoryは学習者のプロファイルをすべての機能で共有します。
开源地址:https://github.com/HKUDS/DeepTutor
06
Claude Codeを賢くするCLAUDE.md
このプロジェクトを見てみると、かなり優れていると感じました。
andrej-karpathy-skillsの核はCLAUDE.mdファイルです。Karpathy氏が大規模言語モデルのコード生成についてツイートした苦言から着想を得ており、現在5万Starを獲得しています。
Karpathy氏がどのような苦言を呈したかというと、モデルが誤った仮定を確認せずに強引に先へ進む、コードやAPIを過度に設計して不要な抽象化を行う、完全に理解していないコードをついでに変更してしまう、わからなくてもわかったふりをして続けてしまう、といった点です。
作者はこれらの観察を4つの原則に変換しました。
考えてから書く:仮定を明確化し、必要に応じて質問を返す。シンプルさを優先:必要なコードのみを書き、推測的な機能を追加しない。外科的変更:必要なコードのみを変更し、既存のスタイルに合わせる。目標駆動実行:検証基準を先に定めてから実行する。
インストールには2つの方法があり、plugin経由を推奨します。
/plugin marketplace add forrestchang/andrej-karpathy-skills
/plugin install andrej-karpathy-skills@karpathy-skills
またはCLAUDE.mdをプロジェクトのルートディレクトリにダウンロードして使用することもできます。
Claude Codeが最近コードを勝手に変更し始めていると感じている場合、このファイルを試すと、もっと素直に従ってくれるようになります。
开源地址:https://github.com/forrestchang/andrej-karpathy-skills
07
Claude Codeに長期記憶を搭載する
claude-memは、Claude Codeが新しいセッションを開くたびに記憶を失ってしまう問題を解決するプロジェクトで、現在6万Starを獲得しています。
その動作原理は非常に直接的です。セッション進行中にClaudeの行った全てのことを自動的に捉え、Claudeのagent-sdkを使ってAIによる意味圧縮を行い、次に新しいセッションを開始する際に関連するコンテキストを注入し直します。
手動で記録したり呼び出したりする必要はなく、すべて自動で行われます。
機能もかなり充実しています。
検索にはスキルベースの自然言語検索を使用し、段階的開示を実装しており、各レイヤーの記憶呼び出しにかかるトークンコストを表示するため、API料金が黙って増えることはありません。
localhost:37777で動作するローカルWeb Viewerが付属しており、ブラウザで直接履歴を閲覧できます。
プライバシー面では、<private>タグで囲むことで記憶したくないコンテンツを指定できます。
ストレージはローカルのSQLiteとChromaベクトルデータベースを使用します。
ついでにGemini CLIもサポートしています。
インストールは1行のコマンドで完了します。
npx claude-mem install
毎日Claude Codeを使っている場合、このツールはほぼ必須です。インストール後、前回の作業を引き継ぐ感覚はとても快適です。
开源地址:https://github.com/thedotmack/claude-mem
08
中国の教科書PDF完全パック
ChinaTextbookはかなり根気のいるプロジェクトで、小学校、中学校、高校、大学の教科書PDFをすべて収集しており、現在6.97万Starを獲得しています。
作者の動機は非常に明確に書かれており、義務教育資源の平等化を推進し、経済的に恵まれない家庭でも正規の教科書にアクセスできるようにしたい、また海外の華人家庭が子供に中国語教育リソースに触れさせやすくすることを目指しています。
内容は人教版、五・四学制など複数の教育課程をカバーし、数学は小学校から大学までと非常に包括的です。
すべてのファイルはPDF形式で、完全に無料です。
50MBを超える一部のファイルは35MBずつに分割されており、リポジトリには結合ツールが用意されています。
READMEには特に、公開リソースを二次販売している転売業者を指名して警告する一文が記載されており、まさに白羽の矢を立てています。
お子さんの学習補助が必要な場合や、ご自身で基礎知識を復習したい場合、このリポジトリをクローンすれば長期間にわたって活用できます。
开源地址:https://github.com/TapXWorld/ChinaTextbook
09
万物Markdown変換神器
AIアプリケーションやRAGパイプラインを構築している場合、このプロジェクトは基本的に避けて通れません。
MarkItDownはMicrosoft公式のPythonツールで、現在11.1万Starを獲得しており、間違いなくトップクラスの人気です。
行っていることはシンプルで、様々なフォーマットのファイルをMarkdownに変換します。
対応フォーマットはPDF、Word、PPT、Excel、画像、音声、HTMLなどで、YouTubeのリンクさえ直接入力できます。
なぜMarkdownに変換するのでしょうか。
現在のLLMはMarkdownにネイティブ対応しており、トークン利用率が最も高く、構造を完全に保持できるからです。見出し、リスト、テーブル、リンクがすべて保持されます。
いくつかの実用的なポイント:LLM統合が組み込まれており、画像はOpenAIモデルを使って説明を生成し、音声は文字起こしが可能です。Azure Document Intelligenceとの接続もあり、markitdown-ocrなどのサードパーティプラグインによる拡張もサポートしています。
インストールは1行で完了します。
pip install 'markitdown[all]'
コマンドラインとPython APIの両方が使用できます。
markitdown path-to-file.pdf -o document.md
ClaudeやGPTにドキュメントを読み込ませる場合、知識ベースを構築する場合、あるいはデータクレンジングを行う場合、このツールは常用ツールボックスに入れておくべきです。
开源地址:https://github.com/microsoft/markitdown
10
エッジデバイスで動作するTTS大規模モデル
VoxCPMは面壁智能(MiniCPM)がオープンソース化した音声合成大規模モデルで、公開されて間もないですが既に1.38万Starを獲得しています。
つまり、これは20億パラメータのTTSモデルで、200万時間以上の多言語音声データで学習され、30言語の自動認識・切り替えに対応し、48kHzのスタジオ品質の音声を出力します。
2つの機能がかなり優れています。
1つはVoice Designで、文字での説明を入力するだけで、その説明に合った音色を直接生成できます。参考音声を提供する必要がありません。
もう1つはコントロール可能な音声クローニングで、クローニング後にスタイルガイドを追加することで、同じ声に異なる感情表現をさせることができます。
リアルタイムストリーミング推論については、RTX 4090上でRTFが0.3程度出ており、基本的にエッジデバイスで実用的な水準です。
ポッドキャスト、動画ナレーション、インテリジェントカスタマーサポート、オーディオブックを作成している場合、このモデルを試してみる価値があります。