10億未満のアクティブパラメータで、数学のスコアがGPT-5ハイエンド版を逆転する小型モデルがオープンソース化

本日は、Zyphraがオープンソース化した驚異的な小型パラメータモデル「ZAYA1-8B」についてお話しします。正直なところ、これは非常に興味深いモデルで、AMDのチップでトレーニングされたという点も注目です。

普段、大規模言語モデルのニュースを見ていると、パラメータ数が1000億に達しないとモデルとは呼べないかのように感じてしまいます。しかし、このZAYA1-8BはMixture of Experts（専門家混合）アーキテクチャを採用しており、実際に稼働するアクティブパラメータは10億未満に抑えられています。

オープンソースリポジトリ: https://huggingface.co/Zyphra/ZAYA1-8B

それにもかかわらず、このコンパクトなモデルは、数学やコーディングのタスクにおいて、自身より数十倍も大規模なパラメータを持つモデルを凌駕する性能を発揮します。

例えば、難関数学コンペティションのデータセットであるHMMTでは、89.6というスコアを叩き出し、GPT-5のハイエンド版やClaude 4.5 Sonnetといった著名なクローズドソースモデルを上回りました。

これほど小さなパラメータでこれほどの高性能を実現できた主な理由は、Zyphraが「あらゆる計算能力、あらゆるパラメータの知能を絞り出す」という点に徹底的にこだわった設計にあります。

彼らは3つの巧妙な変更を加えました。その1つがCCA（Cross-Coder Attention）という注意機構です。簡単に言うと、これはモデルに「フィルター」を取り付け、ノイズとなる不要な情報を取り除き、重要な情報だけを残す仕組みです。

さらに、Mixture of Expertsアーキテクチャを採用し、あたかもAIの専門家チームを編成したかのように機能します。数学の問題に直面すれば数学の専門家を呼び出し、コーディングの問題ならプログラマーの専門家を呼び出すというように、各専門家が役割を分担することで推論効率が飛躍的に向上します。

次に、どの専門家を選択するかを決めるルーター（ゲーティング機構）を、従来の単純な線形判断から、小型の多層パーセプトロンネットワークに置き換えました。これにより、モデルが誰に仕事を割り当てるかを決める際に、混乱して判断を誤ることを防ぎます。

さらに、学習可能な残差スケーリングスイッチを追加し、ごくわずかな計算コストで、モデルが深くなりすぎることで生じる数値発散の問題を解決しました。この三つの工夫により、モデルの基盤は極めて洗練されたものになりました。

その出自についても触れておきましょう。これは多くのコアな技術者以外にはあまり知られていないかもしれませんが、非常に意義深い点です。これまで、このレベルのモデルをトレーニングするには、基本的にNVIDIAのエコシステムに依存せざるを得ませんでした。

結局のところ、高性能なGPUは限られたメーカーしか提供していませんでした。しかし、Zaya1-8Bは異端児であり、完全にAMDのハードウェア上でトレーニングされました。

1024基のAMD MI300X GPUを使用し、この巨大モデルを完成させたのです。これは、AMDのAIエコシステムが現在急速に整備され、成熟しつつあることを示しています。

将来的にAIトレーニングを行う際、選択肢がまた一つ増えたことになります。ユーザーにとってこれは間違いなく朗報です。結局、競争があってこそコストパフォーマンスが向上するのですから。

しかし、このモデルを真に生まれ変わらせたのは、その後の極めて複雑でありながら極めて効果的なポストトレーニング（後学習）プロセスです。

このプロセスは計5つのステップに分かれており、各ステップでモデルに特別な強化訓練を施します。最初は基本的なチャットと命令追従を教え、次に論理問題を与え、複数の回答候補を自ら統合する方法を学習させます。

第3、第4ステップになると、スポーツ選手が行う地獄の体力トレーニングのように、強化学習を通じて問題の難易度を動的に調整しながら、数学とコーディングという2つのハードコアな領域を徹底的に鍛え上げます。

これらのステップを経た後、最後に人間のフィードバックを用いて、話し方の丁寧さや文章のスタイルなど、いわば「身だしなみ」を整えます。

この5段階のプロセスを完了した後の効果は歴然としており、数学とコーディングの能力が急上昇しただけでなく、それに伴って選択問題や小論文作成のスコアも向上しました。

率直に言って、今回のZaya1-8Bは小型パラメータモデルの底力を大いに示してくれました。モデルの強さはパラメータ数だけで判断できるものではなく、アーキテクチャと計算効率にも注目すべきです。

ローカルで高性能モデルを動かしたい方や、コストに敏感な方にとっては、試してみる価値のある新しい選択肢となるでしょう。

現在、ZAYA1-8Bはオープンソース化されており、Apache 2.0ライセンスをサポートしています。つまり、商用利用も可能で、モバイル向けオンラインアシスタントを開発するといったことも問題ありません。

10億未満のアクティブパラメータで、数学のスコアがGPT-5ハイエンド版を逆転する小型モデルがオープンソース化

関連記事

分享網址