GPT之父把AI丟回1930年：沒見過一行程式碼，卻「發明」了Python！

你敢信？一個活在95年前的AI，竟寫出了Python程式碼。GPT之父下場，用2600億Token煉出了一個「老古董」AI。

https://talkie-lm.com/chat

新智元報導

編輯：桃子

【新智元導讀】你敢信？一個活在95年前的AI，竟寫出了Python程式碼。GPT之父下場，用2600億Token煉出了一個「老古董」AI。

一個從未見過電腦的AI，竟寫出了現代程式語言！

這可不是什麼科幻的設定。

就在今天，GPT之父Alec Radford帶隊發布了震撼全網的「talkie」——

總參數130億，一個只讀過1931年之前舊文獻的大模型。

talkie的「世界觀」（全部訓練數據），被凍結在1930年12月31日。

那個時代，沒有網路，沒有維基百科，更沒有任何現代程式碼。

它讀過的最「新」的東西，是近百年前的專利書、科學期刊、禮儀手冊和私人書信。

但就是這樣一個「活在95年前」的AI，居然能寫出Python程式碼。

沒學過程式設計，卻寫出了Python，理解了「反函數」

talkie最炸裂的發現，藏在一組程式設計測試裡。

Alec Radford團隊突發奇想，用HumanEval去測試talkie的程式設計能力——

給它幾個Python函數作為上下文範例，然後讓它解決新的程式設計問題。

要知道，talkie的訓練數據中，沒有任何一行現代程式碼。連數位電腦的概念，都不存在於它的「知識體系」中。

但結果令人震驚，透過少樣本學習，它竟然能寫出正確的Python程式。

雖然目前只能完成簡單的單行程式，比如兩個數相加，或者對上下文範例做微小修改。

Alec Radford：GPT、CLIP、Whisper背後核心大佬

但其中一個案例讓人印象深刻：給定一個旋轉密碼的編碼函數encode_shift，它的邏輯是把每個字母在字母表中向後移動5位。

talkie自己寫出了對應的解碼函數，整個修改只有一個字元：把+5改成了-5，加號換成了減號。

它真正理解了「反函數」：加密是加，解密就是減」這個逆運算的概念。

傳送門：https://talkie-lm.com/chat

2600億Token，專餵百年前的紙

Alec Radford團隊為什麼要費這麼大勁，手動OCR近百年前的物理文獻，來訓練一個「老古董」？

因為他們要回答AI領域最核心的一個問題：LLM的能力，到底是推理，還是背誦？

talkie可以寫出Python，證明了——

LLM可以用19世紀的知識做推理，並非只是檢索。不得不說，這才是真正意義上的「泛化」！

再來看talkie的訓練語料庫，可以稱得上是一個龐大的「考古工程」。

它的訓練語料達到了2600億token，全部來自1931年之前的英語文本，包括書籍、報紙、期刊、科學論文、美國專利、判例法。

要知道，這麼多文本皆需要從實體文件掃描並OCR轉錄。

而選擇1930年作為截止日期，原因很實際：這是美國公共版權法（public domain）的分界線。

不過，這帶來了一個意想不到的瓶頸：數據品質。

團隊做了一組對照實驗：用傳統OCR系統轉錄的舊文本訓練模型，和用人工轉錄的同一批文本訓練模型相比，前者的學習效率只有後者的30%。

簡單的正則清洗能把這個數字提升到70%，但仍然有巨大的差距。

在評估talkie效能實驗中，團隊又打造了一個「現代孿生體」（talkie-web-13b-base）。

後者用FineWeb的現代網路數據訓練，兩款模型用了「相同的算力」。

顯而易見，在核心語言理解、數學推理任務上，talkie的表現與現代孿生體相當。

但在通用知識評測上，即使剔除了對1930年視角來說「穿越」的題目，talkie仍然落後。

團隊懷疑，這跟數據品質有很大關係。

為此，Radford團隊計劃從零開始訓練「復古OCR系統」，專門用於重新轉錄1931年前的文本。

用最現代的Claude 4.6，訓練最古老的AI

talkie的「後訓練」方案也很有意思。

要把一個只讀過舊書的「基礎模型」變成能對話的聊天機器人，根本沒有現成的指令微調的數據可用。

團隊的做法是，從1930年之前的結構化參考書中提取指令-回答對：禮儀手冊、書信寫作指南、食譜、百科全書、詩歌集。

然後，再用這些「復古教材」做第一輪SFT。

在接下來的RLAIF階段，團隊用線上DPO來提升talkie的指令遵循能力，Claude Sonnet 4.6作為裁判。

一個2026年最先進的AI，給一個「活在」1930年的AI打分。

最終的精調階段，團隊甚至用Claude Opus 4.6生成多輪對話數據，來打磨talkie的對話能力。

訓練過程中，Claude對talkie指令遵循能力的評分從2.0提升到了3.4（滿分5分）。

最後一步，用Claude Opus 4.6與talkie進行多輪合成對話，再做一輪拒絕採樣+SFT，打磨對話能力。

團隊也坦承了一個諷刺之處：用現代大模型訓練一個本該凍結在1930年的模型，本身就是一種「時間污染」。

他們的長期目標是用復古基座模型自身作為裁判，實現完全「自舉式」的後訓練流水線。

值得一提的是，talkie的7B版本在RL訓練後出現了一個搞笑的副作用——

它開始用列表體說話，純屬是被現代AI的「壞習慣」傳染了。

AI界最乾淨的一次「開卷考試」

研究團隊還做了另一個有趣的實驗。

他們從《紐約時報》的「歷史上的今天」欄目中提取了近5000條歷史事件描述，計算talkie對每條事件的「驚訝度」。

結果非常清晰，1930年之前的事件，talkie不太驚訝。1930年之後的事件，驚訝度開始攀升。

到了1950年代和1960年代達到峰值，然後趨於平穩。

這條曲線本身就是一個關於預測能力的實驗。隨著模型規模增大，這條曲線會怎麼變化？

谷歌DeepMind CEO Demis Hassabis曾提出一個思想實驗——

一個只訓練到1911年的模型，能不能像愛因斯坦在1915年那樣獨立發現廣義相對論？

talkie目前當然做不到。但它提供了一條路徑，往上擴展規模就行了。

今夏擴展到GPT-3級別

talkie目前是130億參數，團隊的路線圖相當激進——

今年夏天，發布GPT-3級別的復古模型。

更遠期的目標：將語料擴展到超過一兆token，理論上足夠訓練一個GPT-3.5級別的模型，能力接近初代ChatGPT。

一個凍結在1930年的ChatGPT。

參考資料：

https://x.com/status_effects/status/2048878495539843211?s=20

https://talkie-lm.com/introducing-talkie

秒追ASI

⭐按讚、轉發、在看一鍵三連⭐

點亮星標，鎖定新智元極速推送！

GPT之父把AI丟回1930年：沒見過一行程式碼，卻「發明」了Python！

相關文章推薦

分享網址