カテゴリー: 視覚言語モデル
- 「層を一つ削除する」と、モデルはかえってタスクをより深く理解するのか?哈工深|楊朔チームがVLMにおける「タスク干渉層」を発見
- NeurIPS'25!AutoPrune:プラグアンドプレイ可能な適応型大規模モデル剪定フレームワーク
- Xiaohongshu、初のマルチモーダル大規模モデルdots.vlm1をオープンソース化、SOTAに迫る性能を発揮!
- 描きながら考える!マルチモーダル推論が大幅に向上!
- 初のマルチモーダル専用スローシンキングフレームワーク!GPT-o1を7ポイント近く上回り、強化学習がVLMに「熟考」を促す
- Seed1.5-VL技術レポートの解説
- マルチモーダル大規模モデルが軒並み失敗、GPT-4oの安全合格率はわずか50%:SIUOがクロスモーダルな安全盲点を明らかに