新智元報道
編集:桃子
【新智元概要】信じられるだろうか?95年前に生きていたAIが、Pythonのコードを書いたのだ。GPTの父が自ら先頭に立ち、2600億トークンを使って「アンティーク」なAIを鍛え上げた。
なんと、コンピューターを見たこともないAIが、現代のプログラミング言語を書いたのだ!
これはSFの設定などではない。
まさに本日、GPTの父アレック・ラドフォード氏率いるチームが、ネットを震撼させる「talkie」を発表した——
総パラメータ数130億、1931年以前の古い文献だけを読んだ大規模言語モデルである。
talkieの「世界観」(全訓練データ)は、1930年12月31日で凍結されている。
その時代には、インターネットも、ウィキペディアも、ましてや現代的なコードなど一切存在しなかった。
talkieが読んだ最も「新しい」ものは、100年近く前の特許明細書、科学雑誌、礼儀作法の手引書、そして個人的な手紙だった。
しかし、そんな「95年前に生きる」AIが、Pythonのコードを書けるというのだ。
プログラミング未学習なのに、Pythonを書き、「逆関数」を理解した
talkieの最も衝撃的な発見は、一連のプログラミングテストの中に隠されていた。
アレック・ラドフォード氏のチームは、にわかには信じがたいアイデアを思いつき、HumanEvalを用いてtalkieのプログラミング能力をテストした——
いくつかのPython関数を文脈の例として与え、その後、新しいプログラミング問題を解かせたのである。
注目すべきは、talkieの訓練データには、現代的なコードが一行も含まれていないことだ。デジタルコンピューターという概念すら、その「知識体系」には存在しない。
しかし結果は驚くべきものだった。少数の例からの学習を通じて、talkieは正しいPythonプログラムを書くことができたのだ。
現時点では、二つの数を足し合わせたり、与えられた文脈の例に小さな修正を加えたりするような、単純な一行のプログラムしか完成できない。
アレック・ラドフォード:GPT、CLIP、Whisperの生みの親
しかし、中でも印象的なケースがある。回転式暗号の符号化関数「encode_shift」が与えられた。そのロジックは、各アルファベットを、アルファベット表の中で5文字後ろにずらすというものだ。
talkieは、対応する復号化関数を自ら書き出した。変更点はたった一文字、「+5」を「-5」に、プラス記号をマイナス記号に変えただけだ。
talkieは「逆関数」を真に理解していたのだ。「暗号化は加算、復号化は減算」という逆演算の概念を。
リンク:https://talkie-lm.com/chat
2600億トークン、100年前の紙だけを与える
アレック・ラドフォード氏のチームは、なぜわざわざ100年近く前の物理的文献を手作業でOCR処理し、この「アンティーク」を訓練しようとしたのか?
それは、AI分野の最も核心的な問いに答えるためだ。すなわち、大規模言語モデル(LLM)の能力は、推論なのか、それとも暗記なのか?
talkieがPythonを書けたことは、次のことを証明している——
LLMは19世紀の知識を使って推論できるのであり、単なる検索ではない。これこそが、真の意味での「汎化」だと言わざるを得ない!
talkieの訓練用コーパスを見てみると、これは壮大な「考古学プロジェクト」と呼ぶにふさわしい。
その訓練データは2600億トークンに達し、すべて1931年以前の英語テキストから構成されている。書籍、新聞、定期刊行物、科学論文、米国特許、判例法が含まれる。
これらの膨大なテキストはすべて、物理的な文書からスキャンし、OCRで文字起こしする必要があったのだ。
1930年を締切日とした理由は極めて実際的で、これはアメリカのパブリックドメイン法における境界線だからだ。
しかし、これが予期せぬボトルネックをもたらした。データ品質である。
チームは対照実験を行った。従来のOCRシステムで文字起こしした古いテキストで訓練したモデルと、人手で文字起こしした同一のテキストで訓練したモデルを比較すると、前者の学習効率は後者のわずか30%だった。
シンプルな正規表現によるクリーニングで、この数値は70%まで向上したが、それでも大きな差が残った。
talkieの性能を評価する実験では、チームは「現代の双子」(talkie-web-13b-base)も作成した。
後者はFineWebの現代的なウェブデータで訓練され、両モデルは「同一の計算リソース」を使用した。
結果は明らかで、中核的な言語理解や数学的推論のタスクにおいて、talkieのパフォーマンスは現代の双子と同等だった。
しかし、一般的な知識を評価するテストでは、1930年の視点から見て「時代錯誤」な問題を除外した後でも、talkieは劣っていた。
チームは、これがデータ品質に大きく関係していると疑っている。
そのため、ラドフォード氏のチームはゼロから「レトロOCRシステム」を訓練し、1931年以前のテキストの再文字起こしに特化させる計画だ。
最先端のClaude 4.6で、最古のAIを訓練する
talkieの「ポストトレーニング」の手法も非常に興味深い。
古い本だけを読んだ「基盤モデル」を対話可能なチャットボットに変えるには、既製の指示チューニング用データなど全く存在しなかった。
チームが取った手法は、1930年以前の構造化された参考書から指示と応答のペアを抽出することだった。礼儀作法の手引書、手紙の書き方ガイド、レシピ本、百科事典、詩集が使われた。
次に、これらの「レトロ教材」を用いて、第一段階の教師ありファインチューニング(SFT)を行った。
続くRLAIF(AIフィードバックからの強化学習)段階では、オンラインDPOを用いてtalkieの指示追従能力を高め、Claude Sonnet 4.6が審査員を務めた。
2026年の最先端AIが、「1930年生き」のAIを採点するのだ。
最終的な微調整段階では、チームはClaude Opus 4.6を使って多ターンの会話データを生成し、talkieの対話能力を磨き上げた。
訓練プロセスにおいて、Claudeによるtalkieの指示追従能力のスコアは2.0から3.4(5点満点)に向上した。
最後のステップでは、Claude Opus 4.6とtalkieで多ターンの合成対話を行い、さらにリジェクションサンプリングとSFTを実施し、対話能力を磨いた。
チームはまた、ある皮肉な点も認めている。現代の大規模モデルを用いて、本来1930年に凍結されるべきモデルを訓練することは、それ自体が一種の「時間的汚染」であると。
彼らの長期的な目標は、レトロな基盤モデル自身を審査員として用い、完全に「ブートストラップ式」のポストトレーニングパイプラインを実現することだ。
特筆すべきは、talkieの7BバージョンがRL訓練後に面白い副作用を示したことだ——
それは箇条書き体で話し始めたが、これは純粋に現代AIの「悪い癖」が感染したものである。
AI界で最もクリーンな「持ち込み可の試験」
研究チームはもう一つ興味深い実験を行った。
彼らは、ニューヨーク・タイムズの「今日は何の日」コーナーから約5000件の歴史的出来事の記述を抽出し、各出来事に対するtalkieの「驚き度」を計算した。
結果は非常に明確で、1930年以前の出来事には、talkieはあまり驚かなかった。1930年以降の出来事になると、驚き度は上昇し始める。
1950年代から1960年代にかけてピークに達し、その後は横ばいになった。
この曲線自体が、予測能力に関する一つの実験である。モデルの規模が大きくなるにつれて、この曲線はどのように変化するのだろうか?
Google DeepMindのCEO、デミス・ハサビス氏は、ある思考実験を提唱したことがある——
1911年までしか訓練されていないモデルは、アインシュタインが1915年に成し遂げたように、一般相対性理論を独自に発見できるだろうか?
talkieはもちろん、今はまだできない。しかし、それは一つの道筋を示している。規模を拡大し続ければ良いのだ。
今夏、GPT-3レベルへの拡張計画
talkieは現在130億パラメータだが、チームのロードマップは非常に意欲的だ——
今年の夏に、GPT-3レベルのレトロモデルをリリースする。
さらに長期的な目標は、コーパスを1兆トークン以上に拡張することだ。理論上は、GPT-3.5レベルのモデル、つまり初代ChatGPTに近い能力を持つモデルを訓練するのに十分な量である。
1930年で凍結されたChatGPTだ。
参考文献:
https://x.com/status_effects/status/2048878495539843211?s=20
https://talkie-lm.com/introducing-talkie
秒でASIを追跡
⭐ 「いいね!」、転送、「見たよ」のワンクリック三連をお願いします ⭐
スターを灯して、新智元の超速報をお見逃しなく!