カテゴリー: 機械学習
- ByteDance、LLM強化学習における「エントロピー」の呪いを打破し、モデルの確実な成長を可能に!
- スタンフォード大学の最新研究:最強LLMでさえ最先端コードに苦戦!Gemini 2.5 Proの成功率は40%未満
- 数学ランキングを席巻するLLM、会話の仕方を忘れる?CMUらがSFTとRLの驚くべき違いを明らかに!
- 報酬モデルの新たな革命!SWIFTはテキストではなく「心の声」を読み取り、高速かつ強力で経済的なAI評価者を生み出す
- 強化学習フレームワークの進化と開発トレンド
- GPT-5とスケーリング法則の破綻?毕樹超:データ構造と客観的法則を反映しているため、常に有効である
- AIバグ修正の新たなSOTA:SWE-Bench Liteで60.33%の修正率、人間のように経験を蓄積可能、中国科学院ソフトウェア研究所が開発
- ReaGAN:グラフ内の各ノードをインテリジェントな推論エキスパートにする
- 人間によるアノテーションを超えて:MetaがCoT-Self-Instructを発表 – 「推論的自己進化」でLLMトレーニングを再構築する方法
- Dualformer:ランダム化された推論軌跡学習による制御可能な高速思考と低速思考
- マルチモーダル大規模言語モデルは本当に世界を「理解」しているのか?——MLLMの核心知識の欠陥を解き明かす
- 数学訓練はどのようにして大規模モデルの汎用推論能力を「解き放つ」のか?最新の研究が鍵となるメカニズムを解明
- アンドリュー・ン氏、LLMの「後学習」無料コースを公開:SFT、DPO、RLの3つの主要なチューニング手法を網羅
- 継続強化学習技術に関する最新の調査
- アリババが深夜に「切り札」エージェントをオープンソース化!OpenAIに真っ向勝負、性能は全面的にSOTAを達成!
- RAG開発者必見 Googleの新論文MUVERA:多ベクトル検索を単一ベクトル検索と同じ速さで
- 大規模モデルがコードグラフを直接理解:エージェントなしでバグを自動修正、SWE-Benchオープンソースモデルランキングで首位獲得
- 推論が増えるほど幻覚は深刻化するか?マルチモーダル推論モデルの「幻覚のパラドックス」
- 大規模推論モデルの「思考の謎」を解き明かす:「推論グラフ」の視点からモデルの「アハ体験」を見る
- 描きながら考える!マルチモーダル推論が大幅に向上!
- 徹夜のブログ記事でOpenAIからオファー獲得!Muon開発者が激白:「ほとんどのオプティマイザ論文は“偽物”だ」
- Midjourney、動画生成に参入、画像モデルV7も継続更新、ビジュアルの覇者確定
- ByteDance Seedの新作DeltaFormer: 次世代モデルアーキテクチャの試み
- 汚いほど安全? ハーバード大学チームの最新研究:10%の毒性訓練で大規模モデルは無敵に
- LLMは既に自己重み更新が可能に、適応能力と知識統合能力が大幅向上、AIは目覚めたか?