新智元(AI 新智元)発
編集:KingHZ
【新智元ダイジェスト】2026 年の春を振り返ると、Sora ブームの後に登場した「SkyReels V4」が、4 つのトップ機能(マルチモーダル参照、音声・動画の同時生成、統一タスクフレームワーク、全モーダル強化学習)を武器に世界一の座に君臨しました。AI 動画クリエイションにおける「大統一」の時代、まさに中国の時代が到来したのです!
中国製動画生成モデルが、初めて世界の頂点に立ちました。
ちょうど今、第三者機関「Artificial Analysis」の最新ランキングにおいて、SkyReels V4 は「テキストから動画(音声付き)への変換」部門で世界一を獲得しました。
これは Google の「Veo 3.1」を抑え、Kling 3.0 も上回る快挙です。
さらに重要なのは、このランキングがメーカー側の自己申告ではなく、膨大な数の一般ユーザーによるブラインドテストの結果に基づいている点です。
これは、最も難易度が高く、かつ最も価値のある「テキストから動画+音声」のレースにおいて、中国製モデルが最先端を走っていることを意味します。
2 月 27 日、SkyReels V4 プレビュー版が初めて姿を現した際、すでに世界第 2 位を獲得していました。
それから 1 ヶ月も経たないうちに、SkyReels V4 はさらに一歩を踏み出し、堂々の首位へと駆け上がりました。
SkyReels V4 は単に性能が向上しただけではありません。世界の動画モデルの順位そのものを塗り替え始めたのです。
これは、中国の AIGC 動画技術が正式に世界をリードし始めた証です。
2026 年中関村(北京のシリコンバレー)フォーラムにて、SkyReels-V4 が正式に大々的にリリースされ、API も公開されます(skyreels.ai)。
リンク:https://www.skyreels.ai/api-platform
他のモダリティにおいても、SkyReels V4 は優れたパフォーマンスを発揮しており、「テキストから動画(音声なし)」では第 2 位にランクインしています。
データを並べるよりも、その実力を直接ご覧いただきましょう。世界一の動画 AI が、いかに凄まじいのかを詳しく見ていきます。
実測:AI ショートドラマの王
崑崙万維(Kunlun Tech)の「Tiangong AI」にとって、SkyReels は完全なマルチモーダル動画生成システムへの転換を遂げ、テキスト、画像、動画、音声の入力をサポートしています。
これは世界初となる、マルチモーダル入力、音声・動画の同時生成、生成・修復・編集の統一タスクを可能にする動画基盤モデルです。
以下の 6 つの方向性における実測結果は、いずれもこのモデルの恐るべき能力を感じさせるものです。
AI ショートドラマ生成:画像 2 枚とセリフだけで、映画並みのショートドラマが完成
キャラクターの画像を 2 枚投入し、セリフを一段落入力するだけです。
SkyReels-V4 は、1080p、32FPS、15 秒間の動画を即座に出力します。
映像の質感、キャラクターの表情、リップシンクの精度は、もはや AI 特有の違和感がほとんどありません。
東洋人の顔でも西洋人の顔でも、極めて自然な仕上がりです。
雷鳴が轟き、荒れ地で砂嵐が巻き上がる中、関羽と秦瓊による壮大な対決が繰り広げられます。
シンプルなテキストから完全な動画+音声まで、初心者でも映画レベルのコンテンツを簡単に作成でき、「撮りたいものをそのまま撮る」ことを可能にします。
重要なのは、AI 特有の違和感がほぼ消え去っている点です。
さらに重要なのは、今回は「まず映像を作り、後から無理やり音声を貼り付ける」わけではないという点です。
SkyReels-V4 は、映像と音声を同時に処理するように設計されています。
マルチフレーム参照:9 枚の画像で、キャラクターとストーリーを完全に固定
今回の SkyReels-V4 の最大のアップグレードの一つが、マルチフレーム参照機能です。
最大 9 枚のキーフレームを指定できます。
この 9 枚の画像に基づき、中間の動きやカメラワーク、トランジションを補完してくれます。
これは非常に重要で、実用的な機能です。
これまでの AI ショートドラマ制作で最も失敗しやすかったのは、次の 2 点でした。
- 前の瞬間まであんな顔だったのに、次の瞬間には「別人の顔」になっている。
- たった今までこの場所にいたのに、振り返ると別の世界に飛び込んでいる。
SkyReels-V4 は、この 2 つの課題を見事に克服しました。まさに「AI マンガ・ドラマの王」にふさわしい進化です。
プロンプト例:「画像 1 の背中が光る若者が走り続け、その間にいくつかの曲がり角が現れる。カメラは彼を追跡。その後、画像 2 に切り替わり、上半身裸になった若者が走り続け、急カーブする。続いて画像 3 に切り替わり、彼が驚いた表情を浮かべる。最後に画像 4 に切り替わり、彼が右にあるダイヤルを回すと、画面全体が濃い煙に包まれる」
この動画制御能力は、まさに驚異的です。
スタイルも完全に統一されています。このようなマンガ調のドラマにおいて、これほど AI の気配がしない作品は他に類を見ません。
例えば、これは「カオナシ」にそっくりな怪物のアニメーションです。
画像 1 のアニメシーンに基づき、上から下へ、左から右へと自然に遷移させながら、アニメーションショートフィルムを生成します。
戦闘シーンは非常に滑らかで、クローズアップへの切り替えも極めて理にかなっています。
このようなファンタジー風のアニメーションも得意とするところです。
SkyReels-V4 の音声・映像の同時生成能力により、人物の発話時のリップシンクももはや課題ではありません。
ワンストップ動画編集:口頭で動画を編集
さらに驚くべきは、動画を作るだけでなく、動画を直接編集できる点です。まさにポストプロダクションの神ツールと言えます。
主に以下の 3 つの作業が可能です。
1 つ目:画面に要素を追加する
キャラクターに帽子をかぶせる、部屋に花を飾る、新しい人物を元のシーンに追加する、といったことが可能です。
プロンプト例:「画像 1 にある青いリブ編みのビーニーを、動画 1 の中央にいるダンサーの頭にかぶせる」
この一言で、帽子が女性キャラクターの頭に乗りました。
さらに驚くべきは、あらゆる角度から見ても完璧に統合されている点です。
圧倒的なクオリティです。
2 つ目:キャラクターの動作を変更する
新たに追加したキャラクターに元のキャラクターと一緒に踊らせたり、動作を連動させたりできます。
プロンプト例:「画像 1 にあるカラフルな着ぐるみキャラクターを、動画 1 の都会のダンスシーンに追加。ダンサーの隣のダンスフロアに配置し、ダンサーの動きを真似しながら、遊び心があり大げさなダンススタイルで踊らせる」
キャラクターを追加しただけでなく、さらに凄いのは、元の人物とうまく踊りを合わせられる点です。
この動画生成の理解力には、脱帽するほかありません。
3 つ目:不要なものを消去する
字幕、透かし、局ロゴ、通りがかりの人、動物など、望まない干渉物をすべて削除します。
動画を十分に理解した上での編集能力は、まさに驚異的です。
これまでは Premiere や After Effects、各種 AI ツールを行き来して完了させていた作業が、今や SkyReels-V4 1 つのモデルで全て完結します。
つまり、動画生成、要素の埋め込み、キャラクター編集、画面のクリーニングが、同一の汎用編集フレームワークに収束しつつあるのです。
今回の大きなブレークスルーは、動画生成、フレーム補間、拡張、編集を 1 つのインターフェースに統合し、テキストから動画、画像から動画、動画の拡張、始点と終点の補間、そして部分的および全体的な編集を、同一の処理フレームワーク下で行えるようにした点です。
技術的な大突破:なぜ Seedance 2.0 と互角に戦えるのか?
その効果をご覧いただいたところで、SkyReels-V4 の裏側にある技術が、いかに優れているかを見てみましょう。
先月、SkyReels V4 プレビュー版が現役モデルで世界 2 位にランクインした際、私たちは詳細な分析記事を配信しました。Seedance 2.0 の登場後、また一人の中国製ダークホースが AA ランキングを制覇!AI っぽさが消えた。
プレビュー版の世界 2 位から、アップグレード版での世界制覇まで、わずか 1 ヶ月もかかりませんでした。ゲーム用語で言えば「チート級」、AI 業界なら「SkyReels-V4」というべき速さです。
SkyReels-V4 がこれほど飛躍した背景には、小手先の修正ではありません。
主に動画 AI における 2 つの「持病」を克服したからです。
1 つ目の持病は「映像は綺麗だが、論理が通っていない」こと。
例えば、水が天に流れ、カップが空中に浮き(アニメですらなく)、人物が振り返ると動作が不自然になるといった現象です。
この問題を解決するため、SkyReels-V4 はトレーニング時に「似ているか」だけでなく、「正しいか」も判断するようになりました。
端的に言えば、モデルにより厳格な評価システムを導入したのです。
- 映像は美しく、動作は合理的で、音声はリップシンクとリズムに合っていること。
- 不適切な点は、徹底的に再学習させる。
このプロセスは、論文では全モーダル強化学習と呼ばれています。
一方、チームは段階的なカリキュラム学習メカニズムを導入。解像度と長さ、タスクの複雑さ、データの難易度という 3 つの重要な次元を軸に、モデルを単純なタスクから徐々に複雑なタスクへと進化させ、高難易度な生成シナリオへの対応力を継続的に向上させています。
例えるなら、これまでは「答案用紙が綺麗か」だけを見ていた先生が、今は「論理、動作、表現」も同時にチェックするようになったのです。
あるいは、「試験の点数」だけを見ていた先生が、「学習プロセス」にも目を向け、指導法を改善するようになったとも言えます。
2 つ目の持病は「キャラクターを覚えていられない」こと。
数枚のキーフレームを与えるだけで、SkyReels-V4 はその間のプロセスを補完します。9 枚のストーリー画像を与えれば、キャラクターの顔、服装、シーンのスタイルを一貫して維持しようとします。
これは AI ショートドラマにとって極めて重要です。
これまでもっとも興ざめだったのは、キャラクターがシーンごとに変わってしまうことでした。
これまでの AI ショートドラマでは、主人公が第 1 話ではシャープな顎だったのが、第 2 話では四角い顔になってしまい、視聴者が一気に冷めてしまうことがありました。
しかし今や 9 枚のグリッド参照機能により、キャラクターは一貫し、シーンは途切れることなく、AI ショートドラマは「暇つぶし」から「本気で追える」レベルへと進化しました。
これら 2 つの能力により、動画生成の一貫性と制御性は業界の天井に達し、SkyReels-V4 は単なる「動画生成ツール」から「ショートドラマの工業的生産エンジン」へと進化しました。
SkyReels-V4 の技術報告書も公開されています。
技術報告書:https://arxiv.org/pdf/2602.21818
実践による検証
中国版 Netflix の到来
注目すべきはランキングだけでなく、このモデルが既にビジネスの現場で稼働している点です。
DramaWave:崑崙万維(Kunlun Tech)版 Netflix
SkyReels-V4 の技術は、崑崙万維傘下のショートドラマプラットフォーム「DramaWave」を直接支えています。
2026 年 1 月現在、DramaWave と FreeReels を中核とする崑崙短劇プラットフォームの月間アクティブユーザー数(MAU)は 8,000 万人を突破。年間売上高(ARR)は 4 億 8,000 万ドル、月間売上高は 4,000 万ドルに達しています。
これはプレゼン資料上の数字ではなく、実在するユーザーが実際に AI 制作コンテンツにお金を払っているという事実です。
最近、DramaWave は「100 万ドル・ドラマスタート AI」創作支援プログラムを開始し、世界中の優れたクリエイターを広く受け入れています。また、崑崙万維が独自に開発した AI ショートドラマ用エージェントツール「SkyAnime」も同時リリースされ、ツール面からクリエイターを支援し、制作効率を飛躍的に向上させています。
DramaWave 上の AI ドラマモジュールでは、すでに約 1,000 作品が公開され、AI 制作ドラマの月間生産本数は 30 本を超えています。
AI 制作ショートドラマ『略奪ワード!私がアンデッドの天災に転職しました』を例に挙げると、SkyAnime を活用して制作コストを 2 万ドル以下に抑えつつ、公開初日の広告配信額は 10 万ドルを超え、累計再生回数は数百万回に達しています。
これは「技術→プロダクト→収益化」の完璧なクローズドループの実証です。
「断片生成」から工業的なフルチェーン動画制作へ
SkyReels-V4 の意義は、単に「綺麗な動画が作れる」というだけにとどまりません。
AI ショートドラマ産業にとって、SkyReels-V4 は最も中核的な課題、つまりキャラクターの一貫性を解決しました。
これまでの AI 生成ショートドラマでは、カットが変わるだけでキャラクターが「別人」になり、視聴者は物語に入り込めませんでした。
SkyReels-V4 の 9 枚グリッド参照機能により、ドラマ全体を通してキャラクターを一貫させ、AI ショートドラマの品質を初めて「まともに見られる」レベルに引き上げました。
これは AI 映画産業全体にとって、質的な飛躍です。
ゲーム、音楽、コンテンツエコシステムのための統一動画生成基盤
特筆すべきは、SkyReels-V4 が単独のプロダクトではないという点です。
崑崙万維は、AI 音楽制作プラットフォーム「Mureka」も展開しています。その O1 モデルは、世界で初めて思考の連鎖(CoT)技術を導入した音楽推論大規模モデルであり、V8 バージョンでは音色、演奏技法、感情表現において絶え間ないブレークスルーを遂げ、ユーザーは世界 100 カ国以上に及んでいます。
SkyReels-V4 の動画能力と Mureka の音楽能力が組み合わさることで、映像から音声、BGM からボーカルまでを含むフルチェーンの創作クローズドループが完成します。
1 社が世界トップクラスの動画大規模モデルと音楽大規模モデルの両方を保有している例は、世界中を探しても数えるほどしかありません。
広告主が一言で完全な動画広告を生成したり、インディーズミュージシャンが楽曲から直接高品質な MV を作ったり、教育機関が講義を解説、BGM、動画付きの教材に自動変換したり。これらはもはや空想ではなく、現実に起きていることです。
AGI へのフルベット(All in AGI)
崑崙天工の動画大規模モデルの発展を振り返ると、SkyReels-V4 の躍進は偶然ではなく、周到に計算された戦略的爆発であることがわかります。
- 2025 年 2 月:SkyReels-V1 をオープンソース化。中国初となる AI ショートドラマ創作用動画生成モデルで、1,000 万件以上の映像データでトレーニングされ、33 種類の微表情と 400 種類以上のアクションの組み合わせをサポート。
- 2025 年 4 月:SkyReels-V2 をリリース。拡散強制(Diffusion Forcing)フレームワークを採用した、世界初の無制限長さの映画生成モデル。
- 2026 年 1 月:SkyReels-V3 をオープンソース化。1〜4 枚の参照画像の入力をサポートし、マルチサブジェクトの動画生成を実現。
- 2026 年 2 月:SkyReels-V4 プレビュー版をリリース。Artificial Analysis 社グローバルランキングで第 2 位を獲得。
- 2026 年 3 月:SkyReels-V4 が世界一に輝く。
V1 から V4 へ。それは単なるパラメータの追加ではありません。各世代が重要な欠点を補完しています。
平均して 3〜4 ヶ月ごとの大型アップデートという反復ペースは、世界の AI 動画分野において他に類を見ない早さです。
この継続的なイノベーションのリズムは、AI 音楽分野で先行する Mureka、大規模言語モデルやマルチモーダル推論でブレークスルーを遂げる Skywork シリーズ、そして DramaWave によるショートドラマプラットフォームの商用化と相まって、崑崙万維が「計算リソース〜モデル〜アプリケーション」をカバーする完全な AI エコシステムのクローズドループを構築していることを示しています。
これはまさに、崑崙万維が 2023 年初頭に策定した「AGI と AIGC へのフルベット(All in)」という中核戦略以来、最も説得力のある成果の提示なのです。
AI 動画クリエイションの「大統一」の時代
2026 年の春を振り返ると、AI 動画生成の分野はこの 1 年で劇的な変化を遂げました。
Sora が巻き起こした第一波の嵐から、Veo、Kling、Seedance などのモデルがひしめき合う百花繚乱の時代を経て、ついに SkyReels-V4 が「全モーダル参照+音声・動画同時生成+統一タスクフレームワーク+全モーダル強化学習」という 4 つの柱で世界一に君臨するまでになりました。私たちは、新たな時代の幕開けを目撃しています。
この時代において、動画制作はもはや専門チームだけの特権ではなく、創造性を持つすべての人が手にできる表現手段となります。
そして、SkyReels-V4 が象徴する技術の方向性、つまり「1 つのモデル、1 回の操作で、テキストの着想から音声・動画の完成品までを完結させる」という道こそが、その未来への最も明確な道筋なのです。
崑崙万維は技術報告書の中で、今後の 3 大方向性を明らかにしました。より長い時間(30 秒以上)の動画生成能力の拡張、リアルタイム対話型編集機能の強化、モデル API インターフェースの公開と、より多くの創作ツールエコシステムとの統合です。
これらの方向性の一つ一つが、AI 動画制作と専門的な映画制作との距離をさらに縮めるでしょう。
AI 動画の競争はまだ終わっていません。しかし、SkyReels-V4 は世界一の成績で、あることを証明しました。
このレースにおいて、中国・崑崙万維からの声は、もはや世界に聴かれるべきというレベルを超え、すでに世界の頂点に立っているのです。
ASI(人工超知能)を秒で追いかける
⭐いいね!、シェア、「見る」の 3 段コンボを忘れずに!⭐
スター登録して、新智元の最速プッシュをロックオンしよう!