图灵测试其实已经过时了
來源:立委NLP頻道
圖靈測試的實質(zhì)就是要讓人機交互在限定時間內(nèi)做到真假莫辨。玩過GPT3的同學(xué)們都清楚,其實這一點已經(jīng)做到了。從這個角度看,圖靈測試已經(jīng)過時了。區(qū)別人和機器,需要尋找其他的標(biāo)準(zhǔn)。
今天就嘮一嘮正在風(fēng)口上的預(yù)訓(xùn)練語言大模型。大模型標(biāo)志著NLP的新方向。這是只有大投資或大廠才能玩得起的游戲,目前推出了30多款大模型。咱們先從 GPT3 談起。
GPT3 是 OpenAI 推出的自然語言生成模型,是語言超大模型潮流中的比較成熟的一款。生成模型擅長的應(yīng)用領(lǐng)域主要在人機對話的場合。最為人樂道的是它的“善解人意”,貌似可以聽懂人給它的指令。這就是所謂 prompt(提示)接口:人不需要編程代碼,而是可以直接通過自然語言的提示和樣例,告訴它想生成什么,無論是回答問題、機器翻譯、生成對聯(lián)還是聊天,它都蠻擅長。可以說,GPT3 的 prompt 已經(jīng)部分實現(xiàn)了白碩老師所說的 NL2X (至少在任務(wù)X是語言生成類的場景)的閉環(huán)。
自從 GPT3 發(fā)布以來,有很多令人驚艷的表現(xiàn)被用戶錄屏在網(wǎng)上流傳。已經(jīng)形成了用戶粉絲群體了。當(dāng)然很快就有人找到某個角度讓模型露怯,表明模型并不真“理解”背后的邏輯。但這并不影響還有很多看似 open-ended 的語言任務(wù),它真是聽了就能做。
例如,有人要它就某個話題幫助寫一篇英文文章。
這可算是流暢自然的對話了,聽懂了似的,雖然還沒有去具體執(zhí)行任務(wù) lol 接著用戶重復(fù)這個要求,它果然就立即執(zhí)行了,文章寫得好壞再論,人家反正是聽從了指令,跟個切身小蜜似的。
因為是生成模型,所以人機交互的時候,它的應(yīng)對具有隨機性。有時候讓人驚艷,有時候也會露怯。但交互本身總是很流暢,給人感覺,通過圖靈測試已經(jīng)不在話下。
老友說這不過是噱頭。我不大同意。噱頭是人為的,模型并不懂什么叫噱頭,也不會刻意為之。當(dāng)然也可以說是測試者挑揀出來的噱頭。不過,好在模型是開放的、隨機的,可以源源不斷制造這種真假莫辨的人機交互噱頭。在知識問答、翻譯、講故事、聊天等方面,就是圖靈再生也不大容易找到這一類人機交互的破綻。又因為其隨機性,每次結(jié)果都可能不同,就更不像是只懂死記硬背的機器了。機器貌似有了某種“靈性”。
再看看 GPT3 模型中的中文表現(xiàn)。
詞做得不咋樣,尤其是對于大詞人辛老,他老人家應(yīng)該是字字珠璣。但這里的自然語言對話,模型對于自然語言提示的“理解”,以及按照要求去做詞,這一切讓人印象深刻。這種人機交互能力不僅僅是炫技、噱頭就能無視的。
當(dāng)然,現(xiàn)在網(wǎng)上展示出來的大多是“神跡”級別的,很多是讓人拍案叫絕的案例。生成模型隨機生成的不好的結(jié)果,通常被隨手扔進(jìn)垃圾桶,不見天日。這符合一切粉絲的共性特點。但慢慢玩下來,有幾點值得注意:
1. 有些任務(wù),靠譜的生成居多。例如,知識問答幾乎很少出錯。IBM沃倫當(dāng)年知識問答突破,背后的各種工程費了多大的勁兒。現(xiàn)在的超大模型“降維”解決了。同時解決的還有聊天。
2. 隨機性帶來了表現(xiàn)的不一致。但如果應(yīng)用到人來做挑選做判官的后編輯場景,則可能會有很大的實用性。以前說過,人腦做組合不大靈光,畢竟記憶空間有限,但人腦做選擇則不費力氣。結(jié)果是好是壞,通常一眼就可以看出來。結(jié)果中哪些部分精彩,哪些部分需要做一些后編輯,這都是人的長項。人機耦合,大模型不會太遠(yuǎn)就會有實用的東西出來。例如輔助寫作。
3. 超大模型現(xiàn)在的一鍋燴和通用性主要還是展示可行性。真要領(lǐng)域規(guī)模化落地開花,自然的方向是在數(shù)據(jù)端做領(lǐng)域純化工作,犧牲一點“通用性”,增強領(lǐng)域的敏感性。這方面的進(jìn)展值得期待。
老友說,我還覺得應(yīng)該在硬件(模型架構(gòu)上有一些設(shè)計),不僅僅是為了lm意義上的,還要有知識的消化和存儲方面的。
不錯,目前的大模型都是現(xiàn)場作業(yè),基本沒有知識的存貯,知識也缺乏層次、厚度和邏輯一致性。這不是它的長項。這方面也許要指望今后與知識圖譜的融合。(圖譜的向量化研究據(jù)說目前很火。)
聽懂人話,首先要有解析能力吧。大模型中的另一類就是主打這個的,以 BERT 為代表。BERT 實際上就是個 parser,只不過結(jié)果不是以符號結(jié)構(gòu)圖表示而已。認(rèn)清這一點,咱們先看看 parser 本身的情況。
很久以來一直想不明白做語言解析(parsing)怎么可能靠訓(xùn)練做出好的系統(tǒng)出來。按照以前對于解析的理解,這是要把自然語言消化成結(jié)構(gòu)和語義。而結(jié)構(gòu)和語義是邏輯層面的東西,沒有外化的自然表現(xiàn),它發(fā)生在人腦里。訓(xùn)練一個 parser,機器學(xué)習(xí)最多是用 PennTree 加上 WSD 的某些標(biāo)注來做,那注定是非常局限的,因為標(biāo)注代價太高:標(biāo)注語言結(jié)構(gòu)和語義需要語言學(xué)碩士博士才能做,普通人做不來。這就限定死了 parser 永遠(yuǎn)沒法通用化,可以在指定語料,例如新聞?wù)Z料中做個樣子出來,永遠(yuǎn)訓(xùn)練不出來一個可以與我們這些老司機手工做出來的 parser 的高質(zhì)量和魯棒性。因此,讓機器去做符號parsing,輸出符號結(jié)構(gòu)樹是沒有實用價值的。迄今為止,從來沒有人能成功運用這類訓(xùn)練而來的 parsers (例如谷歌的 SyntaxNet,斯坦福parser,等) 做出什么像樣的應(yīng)用來,就是明證。
現(xiàn)在看來,這個問題是解決了。因為根本就不要用人工標(biāo)注,用語言本身就好。parsing 也不必要表示成顯性結(jié)構(gòu)和語義符號,內(nèi)部的向量表示就好。把語言大數(shù)據(jù)喂進(jìn)去,語言模型就越來越強大,大模型開始顯示賦能下游NLP任務(wù)的威力。黃金標(biāo)準(zhǔn)就是隨機選取的語言片段的 masks(遮蔽起來讓訓(xùn)練機器做填空題),所學(xué)到的語言知識比我們傳統(tǒng)的符號 parser 不知道豐富多少,雖然犧牲了一些可解釋性和邏輯一致性。
看得見摸不透的中間向量表示,終于靠語言模型與實際原生語料的預(yù)測,落地了。這個意義怎么高估也不過分。所以,昨天我把我的博客大標(biāo)題“deep parser 是NLP的核武器”悄悄改了,加了個限定詞,成了:
因為 BERT/GPT3 里面的語言模型(特別是所謂編碼器 encoders)才是更普適意義上的 NLP 核武器。我們語言學(xué)家多年奮斗精雕細(xì)刻的parsers是小核見大核,不服還真不行。
從語言學(xué)習(xí)語言,以前感覺這怎么能學(xué)好,只有正例沒有反例啊。(順便一提,喬姆斯基當(dāng)年論人類語言的普遍文法本能,依據(jù)是:沒有天生的普遍文法,單靠暴露在語言環(huán)境中,兒童怎么可能學(xué)會如此復(fù)雜的自然語言,畢竟所接觸的語言雖然全部是正例,但卻充滿了口誤等偏離標(biāo)準(zhǔn)的東西。)
其實,一般而言,語言模型只要有正例即可。從語言學(xué)習(xí)語言的模型訓(xùn)練,通常用對于next word 的預(yù)測,或者對于被遮蔽的隨機片段(masks) 的預(yù)測來實現(xiàn)。正例就是原文,而“反例”就是一切偏離正例(ground truth)的隨機結(jié)果。通過梯度下降,把這些隨機結(jié)果一步步拉回到正例,就完成了語言模型的合理訓(xùn)練。語言模型,乃至一切預(yù)測模型,從本性上說是沒有標(biāo)準(zhǔn)(唯一)答案的,每一個數(shù)據(jù)點的所謂 ground truth 都只是諸多可能性之一。語言模型的本質(zhì)是回歸(regression)任務(wù),而不是分類(classification)任務(wù),只有正例就好 ,因為整個背景噪音實際上就是反例。
有意思的是,BERT 除了語言的句子模型外,還要學(xué)習(xí)篇章(discourse)知識,這歌任務(wù)被定義為簡單的二分類問題,回答的是:兩個句子是否具有篇章連續(xù)性。這里,沒有反例,就自動創(chuàng)造反例出來。語料中任意兩個相鄰的句子就成為正例,而隨機拼湊的兩個句子就成了反例。一半正例,一半反例,這么簡單的 classifier 就把這個難題破解了,使得語言模型超越了句子的限制。
看看 BERT 大模型是如何訓(xùn)練并被成功移植去支持下游NLP任務(wù)的,這就是所謂遷移學(xué)習(xí)(transfer learning)。
(本圖采自谷歌的DL視屏講座,版權(quán)歸原作者所有)
左邊的 encoder 的訓(xùn)練。落地到 LM 的原生數(shù)據(jù),因此完全符合監(jiān)督學(xué)習(xí)的 input –》output 模式。到了NLP應(yīng)用的時候(右圖),不過就是把 encoder 拷貝過來,把落地的目標(biāo)改成特定NLP任務(wù)而已。加一層 output layer 也好,加 n 層的 classifier 也好,總之前面的語言問題有人給你消化了。
Transfer learning 也嚷嚷了好多年了,一直感覺進(jìn)展不大,但現(xiàn)在看來是到笑到最后的那刻了。
未來智能實驗室的主要工作包括:建立AI智能系統(tǒng)智商評測體系,開展世界人工智能智商評測;開展互聯(lián)網(wǎng)(城市)大腦研究計劃,構(gòu)建互聯(lián)網(wǎng)(城市)大腦技術(shù)和企業(yè)圖譜,為提升企業(yè),行業(yè)與城市的智能水平服務(wù)。每日推薦范圍未來科技發(fā)展趨勢的學(xué)習(xí)型文章。目前線上平臺已收藏上千篇精華前沿科技文章和報告。
??如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”
總結(jié)
以上是生活随笔為你收集整理的图灵测试其实已经过时了的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 读写pcd
- 下一篇: 三维图形学课程笔记,3D建模与游戏开发方