GPT之父把AI丟回1930年:沒見過一行程式碼,卻「發明」了Python!

你敢信?一個活在95年前的AI,竟寫出了Python程式碼。GPT之父下場,用2600億Token煉出了一個「老古董」AI。

https://talkie-lm.com/chat

圖片

新智元報導

編輯:桃子

【新智元導讀】你敢信?一個活在95年前的AI,竟寫出了Python程式碼。GPT之父下場,用2600億Token煉出了一個「老古董」AI。

一個從未見過電腦的AI,竟寫出了現代程式語言!

這可不是什麼科幻的設定。

就在今天,GPT之父Alec Radford帶隊發布了震撼全網的「talkie」——

總參數130億,一個只讀過1931年之前舊文獻的大模型。

圖片

talkie的「世界觀」(全部訓練數據),被凍結在1930年12月31日。

那個時代,沒有網路,沒有維基百科,更沒有任何現代程式碼。

它讀過的最「新」的東西,是近百年前的專利書、科學期刊、禮儀手冊和私人書信。

圖片

但就是這樣一個「活在95年前」的AI,居然能寫出Python程式碼。

圖片

圖片

圖片

圖片

沒學過程式設計,卻寫出了Python,理解了「反函數」

talkie最炸裂的發現,藏在一組程式設計測試裡。

Alec Radford團隊突發奇想,用HumanEval去測試talkie的程式設計能力——

給它幾個Python函數作為上下文範例,然後讓它解決新的程式設計問題。

要知道,talkie的訓練數據中,沒有任何一行現代程式碼。連數位電腦的概念,都不存在於它的「知識體系」中。

圖片

但結果令人震驚,透過少樣本學習,它竟然能寫出正確的Python程式。

雖然目前只能完成簡單的單行程式,比如兩個數相加,或者對上下文範例做微小修改。

圖片

Alec Radford:GPT、CLIP、Whisper背後核心大佬

但其中一個案例讓人印象深刻:給定一個旋轉密碼的編碼函數encode_shift,它的邏輯是把每個字母在字母表中向後移動5位。

talkie自己寫出了對應的解碼函數,整個修改只有一個字元:把+5改成了-5,加號換成了減號。

它真正理解了「反函數」:加密是加,解密就是減」這個逆運算的概念。

圖片

傳送門:https://talkie-lm.com/chat

圖片

2600億Token,專餵百年前的紙

Alec Radford團隊為什麼要費這麼大勁,手動OCR近百年前的物理文獻,來訓練一個「老古董」?

因為他們要回答AI領域最核心的一個問題:LLM的能力,到底是推理,還是背誦?

talkie可以寫出Python,證明了——

LLM可以用19世紀的知識做推理,並非只是檢索。不得不說,這才是真正意義上的「泛化」!

圖片

再來看talkie的訓練語料庫,可以稱得上是一個龐大的「考古工程」。

它的訓練語料達到了2600億token,全部來自1931年之前的英語文本,包括書籍、報紙、期刊、科學論文、美國專利、判例法。

要知道,這麼多文本皆需要從實體文件掃描並OCR轉錄。

圖片

而選擇1930年作為截止日期,原因很實際:這是美國公共版權法(public domain)的分界線。

不過,這帶來了一個意想不到的瓶頸:數據品質。

團隊做了一組對照實驗:用傳統OCR系統轉錄的舊文本訓練模型,和用人工轉錄的同一批文本訓練模型相比,前者的學習效率只有後者的30%。

簡單的正則清洗能把這個數字提升到70%,但仍然有巨大的差距。

圖片

在評估talkie效能實驗中,團隊又打造了一個「現代孿生體」(talkie-web-13b-base)。

後者用FineWeb的現代網路數據訓練,兩款模型用了「相同的算力」。

顯而易見,在核心語言理解、數學推理任務上,talkie的表現與現代孿生體相當。

但在通用知識評測上,即使剔除了對1930年視角來說「穿越」的題目,talkie仍然落後。

圖片

團隊懷疑,這跟數據品質有很大關係。

為此,Radford團隊計劃從零開始訓練「復古OCR系統」,專門用於重新轉錄1931年前的文本。

圖片

用最現代的Claude 4.6,訓練最古老的AI

talkie的「後訓練」方案也很有意思。

要把一個只讀過舊書的「基礎模型」變成能對話的聊天機器人,根本沒有現成的指令微調的數據可用。

圖片

團隊的做法是,從1930年之前的結構化參考書中提取指令-回答對:禮儀手冊、書信寫作指南、食譜、百科全書、詩歌集。

然後,再用這些「復古教材」做第一輪SFT。

在接下來的RLAIF階段,團隊用線上DPO來提升talkie的指令遵循能力,Claude Sonnet 4.6作為裁判。

一個2026年最先進的AI,給一個「活在」1930年的AI打分。

最終的精調階段,團隊甚至用Claude Opus 4.6生成多輪對話數據,來打磨talkie的對話能力。

訓練過程中,Claude對talkie指令遵循能力的評分從2.0提升到了3.4(滿分5分)。

最後一步,用Claude Opus 4.6與talkie進行多輪合成對話,再做一輪拒絕採樣+SFT,打磨對話能力。

團隊也坦承了一個諷刺之處:用現代大模型訓練一個本該凍結在1930年的模型,本身就是一種「時間污染」。

他們的長期目標是用復古基座模型自身作為裁判,實現完全「自舉式」的後訓練流水線。

值得一提的是,talkie的7B版本在RL訓練後出現了一個搞笑的副作用——

它開始用列表體說話,純屬是被現代AI的「壞習慣」傳染了。

圖片

AI界最乾淨的一次「開卷考試」

研究團隊還做了另一個有趣的實驗。

他們從《紐約時報》的「歷史上的今天」欄目中提取了近5000條歷史事件描述,計算talkie對每條事件的「驚訝度」。

圖片

結果非常清晰,1930年之前的事件,talkie不太驚訝。1930年之後的事件,驚訝度開始攀升。

到了1950年代和1960年代達到峰值,然後趨於平穩。

這條曲線本身就是一個關於預測能力的實驗。隨著模型規模增大,這條曲線會怎麼變化?

谷歌DeepMind CEO Demis Hassabis曾提出一個思想實驗——

一個只訓練到1911年的模型,能不能像愛因斯坦在1915年那樣獨立發現廣義相對論?

talkie目前當然做不到。但它提供了一條路徑,往上擴展規模就行了。

圖片

今夏擴展到GPT-3級別

talkie目前是130億參數,團隊的路線圖相當激進——

今年夏天,發布GPT-3級別的復古模型。

圖片

更遠期的目標:將語料擴展到超過一兆token,理論上足夠訓練一個GPT-3.5級別的模型,能力接近初代ChatGPT。

一個凍結在1930年的ChatGPT。

參考資料:

https://x.com/status_effects/status/2048878495539843211?s=20

https://talkie-lm.com/introducing-talkie

秒追ASI

⭐按讚、轉發、在看一鍵三連⭐

點亮星標,鎖定新智元極速推送!

圖片

圖片

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.