生活随笔
收集整理的這篇文章主要介紹了
从大型语言模型LLM走向人工通用智能AGI的改进方向(public)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
從大型語言模型走向人工通用智能AGI
返回論文和資料目錄
1.導讀
這篇博客主要基于《Sparks of Artificial General Intelligence: Early experiments with GPT-4》文中第9和第10節、以及我自己對當前LLM和AGI的理解。給出大型語言模型走向AGI時 改進的方向。
2.14個問題及改進方向(動態持續更新)
1.縮減模型
模型約減的目標是使用盡可能小的模型達到盡可能優的性能。當前大語言模型的模型規模是10B-500B。未來AGI必然是要普及的,所以縮減模型是一個重點研究方向。
導致的問題 :
模型的訓練成本和使用成本高,類似ChatGPT等這些優異性能的大模型每訓練一次需要上千萬美金,而在使用時,模型輸入輸出一次就需要經過整個大模型,導致使用成本巨大。 模型難以推廣到個人。與世界上第一臺電腦類似,如果后續沒有個人電腦的普及,相信計算機至今都只存在大型科研或軍事用途上。模型大導致現在大模型的研究主要在工業界和少數頂級科研機構上,這不僅導致研究工作開展困難,還使得模型無法推廣到平民。這也間接導致了后面模型難以進行個性化的發展。
改進的具體方向:
從具體模型方面入手,采用更優的神經網絡結構,損失函數,優化器,詞向量編碼。目前已經有少量的工作在這方面取得了一定的成績,例如LLaMA。 與工具結合。在一些特定的場景,大模型仍然難以擴展,例如數學計算等。 一個大型語言模型再強也難以具備一個計算器的的數學運算能力。因此,與其不斷努力為了保持性能而不降低模型規模,還不如研究如何將一些模型低耦合的能力分給其他工具實現,并如何將工具與大模型整合的技術。與工具結合這一方向詳細展開可見第11點。
2.個性化
個性化是指模型為每個用戶提供個性化服務。未來AGI必然是要普及的,所以模型如何實現個性化是一個重點研究方向。
導致的問題 :
在許多場景,模型需要為個人或組織提供個性化服務。例如,在教育場景中,我們期望模型能夠根據學生在學習方面的進步去理解并適應,給出學生不同階段的學習幫助。同時針對不同的學生,模型需要給出不同的教學方法。再例如,在日常聊天場景中,模型面向小孩和大人的模型輸出可能就不一樣。針對小孩,模型不應該輸出不適合未成年人的內容。同時,聊天中需要注意正確的引導孩子。
改進的具體方向:
元指令。這是《Sparks of Artificial General Intelligence: Early experiments with GPT-4》給出的一個方法。它的思路是每次通過指令輸入的方法,讓模型知道當前的用戶是誰,之前和他說過什么,目前什么樣的輸出適合他。雖然這種方法局限性大且不夠有效,但確實是最簡單的一種思路,目前很火的AutoGPT就是這么干的,確實能夠實現一部分個性化能力。
3.長期記憶
長期記憶指大模型需要記住長文本內容,形成新的認知,或類似人類具備情景記憶。這是大模型一個非常大的缺陷,也是實現AGI必然要解決的問題。
導致的問題 :
模型無法應對需要長期記憶的場景。例如當使用大模型閱讀一本書,模型閱讀第2章內容時可能第一章內容就忘了,人物和事件根本記不住。在源代碼中,對類和函數的引用可能離定義它們的地方很遠。在定理證明中,證明需要利用先前定義的引理。雖然目前GPT-4一次輸入支持的最大token數已經提升到25000,但想實現閱讀一本書,仍然非常困難。再例如,目前已經有工作研究將機器人與ChatGPT結合,而此時機器人有個很大問題是無法類似人類具備事件記憶,無法記住什么時候發生了什么事,遇見了什么人。
改進的具體方向:
結合數據庫或知識圖譜相關技術。目前AutoGPT就采用了這種方法,確實具備了一部分長期記憶能力。 構建一個長期記憶模型M并結合數據庫技術。類似的想法目前清華有做類似的工作ChatDB。
4.置信校準
置信校準指的是模型需要判斷事件的真假。當前LLM經常會輸出假事實,例如,你讓LLM寫一首李白的詩,它的輸出雖然是詩,但卻是它自己瞎編的而不是李白的。你讓他給你一篇關于XX領域的參考文獻,它的輸出像模像樣,但真的去谷歌學術上找,發現是找不到對應的文獻的。
導致的問題 :
LLM無法分別是非,它的認知主要基于訓練集,不會自己去思考和判斷什么是真什么是假。在實際使用的過程中,無法輸出保真答案。
改進的具體方向:
無
5.持續學習
持續學習指的是模型需要根據周圍的環境更新自身。模型訓練好一次后,需要能夠持續不斷地學習。
導致的問題 :
當前模型無法更新。具體地,存在兩種情況。第一種,當一個模型訓練好后,假設我們的計算資源得到了更新,我們當前需要一個更大的模型。此時,當前LLM面臨的情況是在一個參數量更大的模型上完全重新訓練;第二種,當模型在使用時,我們目前比較好的方式是使用RLHF的方法進行微調,使得模型能夠一定程度上得到更新,但這種方式不是實時的,而且更新效率低需要對整個模型進行調節。
改進的具體方向:
無
6.計劃和目標
計劃和目標指模型需要具備制定計劃和目標的能力。
導致的問題 :
當模型需要處理的問題復雜時,模型無法制定計劃和目標對問題進行簡化,進而有效地解決問題。例如,人完成去華山旅游這件事時,需要把這個目標進行分解,再依次完成。比如,首先需要檢查自己有多少錢,然后搜索去的交通工具,接著需要訂酒店,購買上山物資,再接著規劃行動路線,最后坐車回家。其中里面的每個環節可能又可分成多個步驟。比如,訂酒店要考慮價格和位置,考慮訂幾人房等。這么一個復雜目標需要合適的計劃,并制定一系列的目標實現。 另外一方面,模型無法指定提升自己的目標導致無法主動學習,進而使得模型性能無法離線提升。
改進的具體方向:
指令提示+短期記憶:目前AutoGPT就采取了類似的方式實現,它將一個任務不斷通過prompt的方式進行提示和拆解,最終指定多個子目標,一步一步實現。這種方式能夠一定程度上實現模型的規劃和目標能力。
7.數據集收集和生成
數據集收集和生成指模型需要配合合適的數據集收集和生成方法。
導致的問題 :
模型性能不高。近期,LLaMA等大模型論文中已經顯示,即使是規模小的大模型,擴大數據集也能幫助進一步提升性能。反過來講,通過合適的方式收集或生成數據,并進一步用于訓練模型可以有效地提升大模型的性能。
改進的具體方向:
針對數據集收集,可以重點研究模型自主上網收集數據能力。最終,讓模型可以在網絡上自主收集數據并用于訓練提升性能。 針對數據集生成,可以借助已有的LLM模型生成數據集,幫助提升性能,例如WizardLM模型或Wizardcode,下圖給出了一個Wizardcode利用LLM生成針對Code領域的數據的例子。另外,可以研究讓模型自動生成數據,再用生成數據訓練模型,不斷迭代增強性能。最近facebook在計算機視覺領域發表了一篇針對圖像分割的論文。其中提到一個名為數據引擎的數據生成方法,使得數據生成和模型訓練變成一個閉環,達到了“分割萬物”的驚艷結果。
8.情感能力
情感能力指模型需要提升情感能力來幫助提升表現。
導致的問題 :
不僅影響平時的模型表現,還導致無法應用于一些需要情感的場景。例如,在與人聊天的時候,如果對方是一個失戀的人。一個帶感情的回答,必然優于平鋪直敘地講道理或安慰。未來的寵物機器人或是機器人管家的也是重點研究方向,而這些場景顯然需要LLM發展情感能力。
改進的具體方向:
無
9.增強多模態
增強多模態指LLM模型同時考慮處理文本、圖像、音頻等。
導致的問題 :
現有模型主要處理文本,少數可以同時處理圖像(GPT-4)。因此,缺乏了音頻數據的處理,例如,一個大模型無法判斷一首歌好不好聽。
改進的具體方向:
針對不同的多模態訓練不同的模型再進行整合。
10.與現有軟件工具結合
微信、淘寶、美團、QQ音樂、12306等。
11.與現有硬件工具結合
機器人手臂,仿生人皮膚,紅外線,NFC。
12.自我認知和世界認知
沒有自我認知何談置信校準。沒有世界認知如何消除偏見。
導致的問題 :
目前LLM與AGI最大的差距其實是仍然是自我認知和世界認知。
改進的具體方向:
無
13.AGI的測試問題
目前多見于利用考試的方式,例如律師職業資格考試、GRE等。
14.AGI的安全問題和法律問題
暫時略過,讀者可以看看《Planing for AGI and beyond》
總結
以上是生活随笔 為你收集整理的从大型语言模型LLM走向人工通用智能AGI的改进方向(public) 的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔 網站內容還不錯,歡迎將生活随笔 推薦給好友。