カテゴリー: 大規模言語モデル
- アリババがQwen-Imageをオープンソース化:無料版GPT-4oジブリ、中国語最高モデル
- RAGも推論思考が可能に!多源異種知識の難題を徹底解決
- 人間によるアノテーションを超えて:MetaがCoT-Self-Instructを発表 – 「推論的自己進化」でLLMトレーニングを再構築する方法
- 大規模モデルのトレーニング時間、一体どこに費やされているのか?徹底解説
- Qwen3が廃止した混合推論モードを振り返る
- DeepSeek R2の秘密兵器が明らかに!梁文鋒がトップ賞を受賞した技術で、AIの長文読解速度が11倍に爆速化
- AIの安全性と瞑想、心とAGIアライメントの計算モデル 3万語
- Qwenが深夜に更新:RTX 3090で動作可能、3BパラメータでGPT-4oに匹敵
- マルチモーダル大規模言語モデルは本当に世界を「理解」しているのか?——MLLMの核心知識の欠陥を解き明かす
- 階層的推論モデル Hierarchical Reasoning Model
- 言語モデルはなぜ解答と確信度を直接出力できないのか?
- DeepSeek-GRPOの重要度重み設計の欠陥?Qwen3の新しい強化学習アルゴリズムGSPOを解説
- 必読記事:主要な大規模言語モデルアーキテクチャの詳細比較、Llama、Qwen、DeepSeekなど6大モデルを網羅
- Kimi K2の主要な訓練技術:QK-Clip!
- DeepSeek V3を圧倒!アリババが新版Qwen-3をオープンソース化、ベンチマークで断トツのトップに
- 大規模モデルに新たな弱点!古い記憶を忘れず、新しい記憶を区別できない、精度が急落 | ICML'25
- Transformerキラー!Google DeepMindの新たなMoRアーキテクチャが登場、新時代の魔王が来た
- Metaチームの画期的な進展:大規模モデルの「幻覚」が5%に激減!一文の質問が鍵となるか?
- AI進化のタイムラインが明らかに!LLMは7ヶ月ごとに能力が倍増、2030年には職場が消滅する?
- 数学訓練はどのようにして大規模モデルの汎用推論能力を「解き放つ」のか?最新の研究が鍵となるメカニズムを解明
- アンドリュー・ン氏、LLMの「後学習」無料コースを公開:SFT、DPO、RLの3つの主要なチューニング手法を網羅
- 開発者はChatGPTに「無理やり」新機能開発をさせられる!AIが架空機能を捏造し、多数のユーザーが流入、結果的に開発せざるを得なくなる
- Claude Codeが4ヶ月で11.5万人の開発者を獲得、週に1.95億行のコードを書き換え、AGIへの重要な道を急速に席巻中
- AI科学者が研究チームを結成、徹夜の1万字レポートが医学者らを驚愕させる!Nature独占掲載で詳細を公開
- ClaudeのAI含有量がCursorの2倍に!ベテランエンジニアリングマネージャーがAIコーディングの真実を明かす!Googleは慎重に全機能を自社開発;ソフトウェアアーキテクチャの父:アセンブリ言語時代から高級言語への飛躍のようだ