GPT-4o 攻破 ARC-AGI 无法被挑战的神话!71% 准确率成新 SOTA
號(hào)稱不可能輕易被擊敗的 AGI 基準(zhǔn) ARC-AGI 被 GPT-4o 撼動(dòng),GPT-4o 以在公共測(cè)試集 50%、在訓(xùn)練集 71% 的準(zhǔn)確率成為了新的 SOTA!
ARC-AGI 是唯一可以用來衡量通用人工智能進(jìn)展的基準(zhǔn),創(chuàng)造者 Fran?ois Chollets 曾經(jīng)擲下豪言 ——
「它不可能輕易被擊敗!」
為了測(cè)試這一點(diǎn),他于 2020 年在 Kaggle(Google LLC 旗下的數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái))上主辦了首屆 ARC-AGI 競(jìng)賽。
獲勝團(tuán)隊(duì) icecuber 在測(cè)試集上僅取得了 21% 的成功率,這個(gè)成績(jī)強(qiáng)有力地證明了 Fran?ois 的斷言是正確的。
此后幾年,來自世界各地的挑戰(zhàn)者不斷刷新這個(gè)紀(jì)錄,但進(jìn)展緩慢。ARC-AGI 似乎成為了一座不可跨越的高山。
可是這周二,ARC-AGI 基準(zhǔn)無法被挑戰(zhàn)的神話被 GPT-4o 撼動(dòng)了!GPT-4o 以在公共測(cè)試集 50%、在訓(xùn)練集的保留子集 71% 的準(zhǔn)確率成為了新的 SOTA!
ARC-AGI 上周被大肆宣傳為 LLM 無法解決的基準(zhǔn)。這個(gè)說法激發(fā)了我親愛的同事 Ryan Greenblatt 的斗志,因此他上周試圖用 LLMs 來解決這個(gè)問題。Ryan 在一組示例中獲得了 71% 的準(zhǔn)確率,而人類的準(zhǔn)確率為 85%;這(GPT-4o)是 SOTA。
這個(gè)消息也迅速登上了 HN 熱搜榜。
值得一提的是,今年 Mike Knoop、Fran?ois 和 Lab42 聯(lián)手創(chuàng)建了 2024 年 ARC 獎(jiǎng),獎(jiǎng)金池超過 110 萬美元。
為了完成這個(gè)挑戰(zhàn),Ryan 放棄了一個(gè)星期的項(xiàng)目,設(shè)計(jì)了很多花哨的技巧,爭(zhēng)取了高性能:
訓(xùn)練集:71% vs. 人類基線 85%
測(cè)試集:51% vs. 之前的 SOTA 34%(人類基線未知)
但遺憾的是,此提交不符合 ARC-AGI 獎(jiǎng)項(xiàng)和主要排行榜的資格,因?yàn)樗褂瞄]源模型和過多的運(yùn)行時(shí)計(jì)算。
可能 Ryan 會(huì)提交到私人排行榜中吧。
什么是 ARC-AGI?
ARC-AGI 的數(shù)據(jù)集由視覺問題組成,輸入輸出示例是由彩色單元格組成的網(wǎng)格,任務(wù)是猜測(cè)從輸入到輸出的轉(zhuǎn)換規(guī)律,然后補(bǔ)全缺失的網(wǎng)格。
看起來很簡(jiǎn)單對(duì)吧,就像是小學(xué)的奧數(shù)題,讓 GPT-4o 來解決也并不困難。不過,公共測(cè)試集中的任務(wù)要難得多,對(duì)于人類來說,也會(huì)有些棘手,但并非不可解決。
每一項(xiàng) ARC-AGI 任務(wù)都是經(jīng)過人工驗(yàn)證的,包括公共測(cè)試集,確保 ARC-AGI 的所有任務(wù)都可以由人類解決。
畢竟這是一個(gè)通用人工智能基準(zhǔn),如果連人類自己都難倒了,那拿去測(cè)試 LLM 也說不過去。
據(jù)報(bào)道,亞馬遜土耳其機(jī)器人 (Amazon Mechanical Turk,MTurk) 訓(xùn)練分布的人類基線是 85%,但沒有針對(duì)公開測(cè)試集的人類基線,不過我們已知的是,公開測(cè)試集更難,那么針對(duì)公開測(cè)試集的人類基線應(yīng)該會(huì)更低。
Ryan 給出了測(cè)試集中的一些代表性的問題,以及他基于 GPT-4o 的解決方案是否回答正確。
問題 1:
問題 2:
問題 3:
從 Ryan 給出的這 3 個(gè)例子中可以看出,GPT-4o 答對(duì)了三分之一。(跟小編的勝率一樣,前 2 個(gè)圖密密麻麻,沒看出個(gè)所以然來…)
怎么讓 GPT-4o 做到的
Ryan 的解決方案的主要思路非常簡(jiǎn)單:讓 GPT-4o 生成約 8000 個(gè)嘗試實(shí)現(xiàn)轉(zhuǎn)換的 python 程序,選擇一個(gè)在所有示例(通常有 3 個(gè)示例)中都正確的程序,然后提交該函數(shù)應(yīng)用于額外測(cè)試輸入時(shí)產(chǎn)生的輸出。
Ryan 以圖像和各種 ASCII 表示形式向 GPT-4o 展示了該問題。
這種方法在本質(zhì)上與 AlphaCode 中應(yīng)用的方法類似,在 AlphaCode 中,一個(gè)模型會(huì)生成數(shù)百萬個(gè)試圖解決編程問題的完成項(xiàng),然后對(duì)這些完成項(xiàng)進(jìn)行匯總,以確定要提交的內(nèi)容。
從更高層次上來解釋,Ryan 使用的方法是:
向 GPT-4o 介紹 ARC-AGI 的問題,并為問題中的每個(gè)網(wǎng)格提供圖像表示法和各種文本表示法。
指導(dǎo) GPT-4o 推理背后的規(guī)律,進(jìn)一步推理如何用代碼實(shí)現(xiàn)轉(zhuǎn)換,最后用代碼實(shí)現(xiàn)。
使用幾次提示以及幾個(gè)精心手寫的分步推理示例來實(shí)際讓 GPT-4o 有效地進(jìn)行此推理。生成的提示通常長(zhǎng)度約為 30k 個(gè) token(包括圖像)。
從 GPT-4o 中抽取大量的完成樣本(每個(gè)問題約 5000 個(gè))。
針對(duì)每個(gè)問題選取最有希望的 12 個(gè)補(bǔ)全,然后通過向 GPT-4o 展示該程序在示例中的實(shí)際輸出,并要求 GPT-4o 修改代碼使其正確,從而嘗試修復(fù)每個(gè)補(bǔ)全。
然后,根據(jù)對(duì)正確示例程序的多數(shù)投票結(jié)果,選出 3 個(gè)提交程序。
概括來說,Ryan 通過足夠長(zhǎng)的、精雕細(xì)琢的少樣本提示,生成許多可能的 Python 程序,從大約 5k 個(gè)猜測(cè)中,使用示例選出最佳猜測(cè),然后進(jìn)行調(diào)試。
除了對(duì)訓(xùn)練集進(jìn)行迭代外,Ryan 還對(duì)公共測(cè)試集的 100 個(gè)問題子集進(jìn)行了少量迭代。
在這里介紹的所有結(jié)果都是在不重疊的公共測(cè)試集的另一個(gè)子集上計(jì)算得出的。
訓(xùn)練集和測(cè)試集不是獨(dú)立的,而且測(cè)試集的難度更大,因此使用測(cè)試集的子集進(jìn)行迭代有助于快速更好地了解問題隨難度的變化。
不幸的是,這些測(cè)試集不是獨(dú)立同分布(Independent Identically Distribution,IID):這使得迭代變得更加困難和混亂。
關(guān)于方法的更多細(xì)節(jié),以及完整的解決方案,可以參閱項(xiàng)目的 GitHub:
采樣每增加一倍,精度提高 3%
如果有更多的采樣,性能會(huì)有所提高嗎?
答案是會(huì)的!
縮放 Python 采樣數(shù)量可以可靠地提高性能,每增加一倍,精度提高 3%。
而且這距離 AlphaCode 使用的數(shù)百萬個(gè)樣本還很遠(yuǎn)!
GPT-4o 存在的非推理弱點(diǎn)
GPT-4o 看不清楚。GPT-4o 在網(wǎng)格上的視力很糟糕,當(dāng)被要求描述一個(gè)較大的網(wǎng)格中的內(nèi)容時(shí),它通常無法正確「看清」輸入,并陳述有關(guān)某些位置的顏色或存在的形狀的錯(cuò)誤事實(shí)。
GPT-4o 不太擅長(zhǎng)編碼(特別是對(duì)于此類幾何操作問題),并且經(jīng)常犯一些簡(jiǎn)單的錯(cuò)誤,例如差一錯(cuò)誤(Off-by-one error,OBOE)。
當(dāng)上下文中的 token 超過 32k 時(shí),其性能會(huì)下降。
消除這些非推理弱點(diǎn)將顯著提高解決方案的性能,而這些問題似乎很可能通過規(guī)模化(scalling)來解決。
距離 ARC-AGI 大獎(jiǎng)還有多遠(yuǎn)?
如何才能達(dá)到 ARC-AGI 所設(shè)定的 85% 的大獎(jiǎng)目標(biāo)呢?
Ryan 做出了非常「數(shù)據(jù)化」的預(yù)測(cè)。
70% 的可能性:一個(gè)由 3 名頂尖 ML 工程師組成的團(tuán)隊(duì),通過微調(diào) GPT-4o(包括 SFT 和 RL)、1000 萬美元的計(jì)算量和 1 年的時(shí)間,可以使用 GPT-4o 超越 MTurk 85% 的人類基線(簡(jiǎn)單訓(xùn)練集)。
35% 概率:在上述同等條件下,公共測(cè)試集上的概率也可達(dá) 85%。目前還不清楚哪些人在測(cè)試集上的表現(xiàn) >=85%,盡管這對(duì)于聰明的人來說可能并不難。
80% 的概率:下一代多模態(tài)大模型(例如 GPT-5)將能夠大幅提高 ARC-AGI 的性能。
LLM 有學(xué)習(xí)能力嗎
Ryan 引用了 Fran?ois Chollets 的一段話 ——
如果你是對(duì)的(LLMs 可以進(jìn)行情境學(xué)習(xí)),那么,LLMs 在 ARC 謎題上會(huì)表現(xiàn)得很好,因?yàn)?ARC 謎題并不復(fù)雜。你不需要認(rèn)真思考它,它們實(shí)際上對(duì)人類來說非常明顯。
即使是孩子也可以做到,但 LLMs 不能。即使 LLMs 的知識(shí)比你多 100,000 倍,仍然做不到。ARC 唯一的特殊之處在于它的設(shè)計(jì)初衷就是為了抵制記憶。這是 LLM 性能的巨大障礙。
如果仔細(xì)觀察 LLMs,很明顯他們并沒有真正即時(shí)合成新程序來解決他們面臨的任務(wù)。
Ryan 則認(rèn)為,LLMs 在進(jìn)行上下文學(xué)習(xí)時(shí)實(shí)際上做了一些相關(guān)的「學(xué)習(xí)」。
盡管整體性能非常弱,遠(yuǎn)遠(yuǎn)不如人類(否則他就不需要在他的解決方案中抽取數(shù)千個(gè)樣本),但這仍然是一種學(xué)習(xí)。
「我的觀點(diǎn)并不是說 GPT-4o 相對(duì)于人類來說是聰明的,但我確實(shí)認(rèn)為它是具有『智能』的。」
參考資料:
https://x.com/bshlgrs/status/1802766374961553887
https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,所有文章均包含本聲明。
總結(jié)
以上是生活随笔為你收集整理的GPT-4o 攻破 ARC-AGI 无法被挑战的神话!71% 准确率成新 SOTA的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《艾尔登法环:黄金树幽影》明日正式发售:
- 下一篇: 微软建议用户升级至 Win11 24H2