王炸-GPT4.0的新能力与商业价值
轉自微信公眾號:嵌入式單片機之家
?
有多王炸 ?
GPT-4 可以接受文本和圖像輸入,允許用戶指定任何視覺或語言任務。具體來說,它在給定文本和圖像輸入的情況下能夠生成文本輸出(自然語言、代碼等)。在一系列其它領域——包括文本和照片、圖表或屏幕截圖的文檔中,GPT-4 展示了與純文本輸入類似的功能。
比3.5版本好在哪?
GPT-4 是一個大型多模態模型(接受圖像和文本輸入,發出文本輸出),雖然在許多現實世界場景中的能力不如人類,但在各種專業和學術基準上表現出人類水平的表現。OpenAI花了 6 個月的時間對對抗性測試程序和 ChatGPT 的經驗教訓迭代調整 GPT-4,從而在真實性、可控性和拒絕超出護欄方面取得了有史以來最好的結果(盡管遠非完美)。在過去的兩年里,OpenAI重建了整個堆棧結構,并與 Azure 共同設計了一臺超級計算機。在GPT-3.5的基礎上,大量測試與修復了一些錯誤并進行改進。結果,GPT-4訓練運行前所未有地穩定,成為能夠提前準確預測其訓練性能的第一個大型模型。隨著OpenAI繼續專注于擴展和完善相關方法,將能夠越來越多地提前預測和準備未來的能力——這對安全至關重要。
一、模擬考試測試
例如,在為人類設計的模擬考試中:它通過模擬律師考試、奧林匹克競賽、 AP 自由回答問題、2022-2023 年版本練習考試中,分數在應試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。
二、大型語言模型推理
三、機器翻譯
使用 Azure Translate將一套涵蓋 57 個主題的 14,000 個多項選擇題——翻譯成26種語言。24 種中,GPT-4 優于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英語語言性能,包括拉脫維亞語、威爾士語和斯瓦希里語語言。
四、其他
在售后支持、銷售、內容審核和編程等功能都由于GPT3.5。
GPT-4的新能力
一、Visual inputs: VGA charger
能夠指出圖像的笑點,描述每一格的內容。輸入一張由三張圖片拼成的圖,用戶輸入“這張圖有什么奇怪的地方?一張圖一張圖地描述”,GPT-4會分別對每張圖中的內容進行描述,并指出這幅圖把一個大而過時的VGA接口插入一個小而現代的智能手機充電端口是荒謬的。
二、Visual inputs: chart reasoning
能夠對圖表進行分析和總結。用戶問格魯吉亞和西亞的平均每日肉類消費量總和是多少,讓GPT-4在給答案前提供一個循序漸進的推理,GPT-4也能按需作答。
三、 Visual inputs: école Polytechnique exam question
能夠一步一步的解答物理問題,可以根據識別到圖片的內容回到相對應的問題。用戶可以直接給一張考試題的照片,讓GPT-4一步步思考作答。
四、Visual inputs: extreme ironing
能夠找出違和的地方。當你問“這張圖片有什么不尋常之處”時,它可以從圖片的內容告訴你這位男人在出租車上熨衣服的照片的違和之處。
五、Visual inputs: pixels to paper summaries
能夠讀取內容并總結歸納。給幾張論文的照片,GPT-4可以做總結,也可以對用戶指定的圖片的內容進行展開解釋。從此以后,你的文獻閱讀不用愁了。
六、Visual inputs: chicken nugget map
輸入炸雞塊擺成的世界地圖,讓GPT-4解釋圖中的模因(meme),GPT-4回答說這是個笑話,結合了太空中的地球照片和雞塊這兩個不相關的東西,能夠進行科幻創作。
七、Visual inputs: moar layers
描述統計學習和神經網絡的差異。讓GPT-4解釋這張漫畫,GPT-4認為它諷刺了統計學習和神經網絡在提高模型性能方面的差異。
舉幾個簡單的例子,比如下面這張照片,
再比如下面這幾張照片, 比如第一張貓的照片,詢問為什么好笑?它給出的回答是,因為貓咪帶著一個微笑的面具;
再比如5+4的照片,可以直接告訴你答案;一個時鐘的照片,可以直接告訴你時間。
除了識別以上類似的圖片內容以外,GPT-4還可以識別手繪的網頁草圖,然后直接根據草圖寫出網頁前段代碼。
操縱性與限制
我們可以定義 AI 的行為,包括可操縱性。與具有固定冗長、語氣和風格的經典 ChatGPT 個性不同,我們現在可以通過在“系統”消息中描述這些方向來規定他們的 AI 的風格和任務。
盡管功能強大,但 GPT-4 與早期的 GPT 模型具有相似的局限性。最重要的是,它仍然不完全可靠(它“幻覺”事實并出現推理錯誤)。
在使用語言模型輸出時應格外小心,特別是在高風險上下文中,使用符合特定用例需求的確切協議(例如人工審查、附加上下文的基礎或完全避免高風險使用) .
雖然仍然是一個真正的問題,但 GPT-4 相對于以前的模型(它們本身在每次迭代中都在改進)顯著減少了幻覺。
在對抗性真實性評估中,GPT-4 的得分比最新的 GPT-3.5 高 40%:它測試了模型將事實與一組對抗性選擇的錯誤陳述分開的能力。
GPT-4 基本模型在此任務上僅比 GPT-3.5 略好;然而,在 RLHF 后訓練(應用與 GPT-3.5 相同的過程)之后,存在很大差距。、
比如一些例子,GPT-4 拒絕選擇俗語(你不能教老狗新把戲),但它仍然會遺漏細微的細節(貓王不是演員的兒子)。
該模型的輸出可能存在各種偏差——雖然官方在這些方面取得了進展,但還有更多工作要做。如何讓官方構建的 AI 系統具有合理的默認行為,以反映廣泛的用戶價值觀,允許這些系統在廣泛的范圍內進行定制,并就這些范圍應該是什么獲得公眾意見,有很大進步空間。
GPT-4 普遍缺乏對絕大部分數據中斷后(2021 年 9 月)發生的事件的了解,并且不從其經驗中吸取教訓。它有時會犯簡單的推理錯誤,這些錯誤似乎與跨多個領域的能力不相稱,或者在接受用戶明顯的虛假陳述時過于輕信。
有時它會像人類一樣在難題上失敗,例如在它生成的代碼中引入安全漏洞。GPT-4 也可能自信地在其預測中犯錯,在可能出錯時不注意仔細檢查工作。有趣的是,基礎預訓練模型經過高度校準(其對答案的預測置信度通常與正確概率相匹配)。然而,通過我們目前的訓練后過程,校準減少了。
風險與緩解措施
官方一直在對 GPT-4 進行迭代,以使其從訓練開始就更安全、更一致,工作包括選擇和過濾預訓練數據、評估和專家參與、模型安全性改進以及監控和執行。
GPT-4 會帶來與之前模型類似的風險,例如生成有害建議、錯誤代碼或不準確信息。但是,GPT-4 的附加功能會帶來新的風險面。
為了了解這些風險的程度,官方聘請了 50 多位來自 AI 對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家來對模型進行對抗性測試。這些專家的反饋和數據用于我們對模型的緩解和改進;
例如,我們收集了額外的數據來提高 GPT-4 拒絕有關如何合成危險化學品的請求的能力。GPT-4 在 RLHF 訓練期間加入了額外的安全獎勵信號,以通過訓練模型拒絕對此類內容的請求來減少有害輸出(如我們的使用指南所定義)。
獎勵由 GPT-4 零樣本分類器提供,該分類器根據安全相關提示判斷安全邊界和完成方式。為了防止模型拒絕有效請求,我們從各種來源(例如,標記的生產數據、人工紅隊、模型生成的提示)收集了多樣化的數據集,并對兩者應用安全獎勵信號(具有正值或負值) 允許和不允許的類別。
與 GPT-3.5 相比,我們的緩解措施顯著改善了 GPT-4 的許多安全特性。
與 GPT-3.5 相比,我們已將模型響應不允許內容請求的傾向降低了 82%,
并且 GPT-4 根據我們的政策響應敏感請求(例如,醫療建議和自我傷害)的頻率提高了 29% .
總的來說,我們的模型級干預增加了引發不良行為的難度。
應用程序接口
GPT-4定價為每 1000/0.03或0.06 美元。默認速率限制為每分鐘40k 和每分鐘200 個請求。gpt-4 的上下文長度為 8,192 個。同時,提供32,768個上下文(約 50 頁文本)的有限訪問(版本 gpt-4-32k-0314,隨著時間的推移自動更新,目前支持到 6 月 14 日 )
商業價值
▍更接近“真人”的通用智能
“曲率引擎已經吹動了發絲?!泵裆C券計算機分析師呂偉用《三體》里的熱詞來形容GPT-4的智能與進步。
在他看來,官方發布相較以往版本主要三大突破,本質上都是更接近“真人”的通用智能:
第一,像人一樣更具備創造協作輸出能力,具備更有創造性的寫作能力,包括編歌曲、寫劇本、學習用戶寫作風格等;第二,像人一樣具備視覺輸入處理分析能力,可以圖文等多模態同時綜合分析,給出答案;第三,像人一樣具備超長文本的處理分析能力。
微軟公司副總裁、微軟大中華區首席運營官康容在采訪中對《科創板日報》記者表示,OpenAI是微軟的第三方的策略合作伙伴,從四五年前開始密切合作。OpenAI并非微軟智能云Azure的首個大模型的AI服務,卻引發了巨大關注,是在以下兩方面實現了突破。
首先,其使用培訓的數據量,遠遠超過包括微軟在內的各個廠商模型數據量。“你可以想象AI是一個很聰明的小朋友,雖然有很多潛力,但也需要好好培養,要用大量的數據來培訓?!?康容說。
其次,GPT是輔助寫作(Generative Pre-trained Transformer ),從機器學習、做語言翻譯的基礎開始,會自己收集大量的數據,做出包括文字、圖片、視頻等在內的新內容。
“我們跟某國內手機廠商聊,他們希望挑戰OpenAI,希望生成的圖片是一個25-30歲女士模特,金頭發、藍眼睛站在稻田上,藍天無云,拿著品牌手機?!?康容說,“GPT竟然聽懂指導,把那個圖片畫出來了。一般來說,設計圖片需要找代理公司,溝通客戶需求,但有時做出來的東西不是想要的,但GPT可以提供不同版本,而且都是全新的、沒有看過的東西?!?/p>
微軟大中華區Azure事業部總經理陶然介紹,目前OpenAI和微軟Azure服務的合作主要在三個方面?!暗谝?#xff0c;是GPT模型。要強調的是GPT模型并不等同于ChatGPT,而是一個數據模型;第二,是DALL-E 2圖像生成模型,第三,是Codex代碼生成模型?!?/p>
康容以醫療領域為例,“醫療會涉及很專業的深度內容。所以,某個客戶如果用企業級OpenAI 做出醫療的ChatBot(聊天機器人),那個ChatBot會回答的問題,是另一個ChatBot聽不懂的,因為都是通過內部企業級數據進行培訓,內容會很專業?!?/p>
康容認為,未來OpenAI的模型會被應用在各個領域,生成完全不同的圖片和視頻,通過更聰明的機器人小助理或者ChatBot,協助員工在內部做快速、大量的數據分析,產出報告。
“比如,企業想要看國內過去三年疫情期間,國內不同地區的汽車行業或者半導體客戶的成長率。這在以前,需要花個兩三周、一個月的時間,整理出來的內容也不是特別完整。但借助OpenAI,可能幾分鐘就能整合了外部信息產出報告,效率大大提升了。雖然不一定百分百準確,但打了一個很好的基礎。這是未來企業級OpenAI的價值,重點在業務上服務客戶和員工?!?/p>
▍多家上市公司開展相關布局
此前,多家國內企業都紛紛宣布已與微軟開展合作。其中,創意軟件A股上市公司萬興科技已對接Azure OpenAI開通商用服務權限。據了解,Azure OpenAI 服務于2023年1月推出,萬興科技是國內首批獲得 Azure OpenAI商用服務權限的企業。
萬興科技證券部相關負責人對《科創板日報》記者表示,目前所使用的Azure OpenAI服務為英文版本,主要給海外用戶進行體驗,目前對營收暫無貢獻。據悉,萬興科技已推出萬興喵影、萬興優轉、萬興錄演等視頻創意軟件?!皩ξ覀兌?#xff0c;會更期待可支持視頻生成的GPT版本的推出?!鄙鲜鲐撠熑吮硎尽?/p>
藍色光標則在互動平臺表示,藍色光標旗下藍標傳媒已正式宣布與微軟廣告達成戰略合作,并成為其官方代理商;同時,公司將與微軟開展基于OpenAI的技術產品合作,通過敏銳地洞察與過硬的實力使更多出??蛻粝硎艿紸I發展的紅利。
此外,百度、商湯科技、360等企業也在探索類ChatGPT和大模型的開發。3月14日,商湯科技發布多模態多任務通用大模型“書生(INTERN)2.5”,其圖文跨模態開放任務處理能力可為自動駕駛、機器人等通用場景任務提供感知和理解能力支持。image
利用多模態多任務通用大模型輔助完成自動駕駛場景中各類任務
據商湯方面透露,“書生2.5”具備了AIGC“以文生圖”的能力,可根據用戶提出的文本創作需求,利用擴散模型生成算法,生成寫實圖像。例如借助“書生2.5”的以文生圖能力幫助自動駕駛技術研發,通過生成各類真實的道路交通場景,如繁忙的城市街道、雨天擁擠的車道、馬路上奔跑的狗等,生成寫實的Corner Case訓練數據,進而訓練自動駕駛系統對Corner Case場景的感知能力上限。image
360則在互動平臺表示,公司的人工智能研究院從2020年開始一直在包括類ChatGPT技術在內的AIGC技術上有持續性的投入,但截至目前,僅作為內部業務自用的生產力工具使用,各項技術指標只能做到略強于ChatGPT 2.360方面稱,計劃盡快推出類ChatGPT技術的demo版產品。
中信證券指出,長期來看以GPT為主的生成式預訓練大模型持續升級,多模態帶來更大的數據支持需求,模型計算精度逐漸提升,開放API后應用場景持續落地,對于算力的總體需求料將持續提升。
國內多家公司也在積極布局大語言模型,但是國內高端算力芯片目前比較依賴海外廠商,在高端芯片國產化背景下,中信證券建議關注國內推出及布局AI芯片/GPGPU芯片的相關公司,包括:寒武紀、龍芯中科、海光信息、景嘉微、瀾起科技等。
▍在零售、汽車、金融等應用潛力巨大
針對在中國市場的規劃,康容介紹,目前中國區正在與總部進行探討。“微軟在全球有70多個數據中心區域,只有三個數據中心區域部署了企業級的Azure OpenAI服務。未來,這個覆蓋范圍會擴大,但是以什么速度部署、在哪里部署,是需要看各個區域客戶的需求有多高。因為OpenAI的服務在落地前,需要部署很多的底層服務。這件事情我們還在跟總部探討?!?/p>
從整體應用趨勢來看,零售、汽車、金融、互聯網、游戲等領域的企業,均在探索ChatGPT的服務如何在企業場景里產生價值?!霸谌蚍秶鷥?#xff0c;我們看到微軟Azure OpenAI商用服務的用戶增長量是非常大。” 陶然說。
360創始人兼董事長周鴻祎對《科創板日報》記者表示,ChatGPT真正的能力在于是強人工智能的雛形,通用人工智能發展的奇點,“它不是為了解決某一專有領域問題,而是為了解決對人類知識進行存儲和知識化?!?/strong>
在具體的應用場景上,周鴻祎認為,ChatGPT更準確的定位是個人助手,在辦公場景里很好用?!氨热鐚懘缶V、寫報告、寫文章。又比如做題,甚至寫代碼,就算是編程的初學者也能在其幫助下寫出高質量的代碼?,F在,ChatGPT已經具備了一定的邏輯推理能力。未來,在客服、營銷、醫療等諸多場景下,都是ChatGPT很好的應用場景,能夠大幅提升腦力勞動者的工作效率?!?/p>
談及國內類ChatGPT產品的代差落后,周鴻祎指出,對中國而言,從語料上、從技術上、從戰略上都可以做,中國互聯網公司的工程化能力強,技術落地能力強。在國家鼓勵性政策的支持下,用兩三年的時間趕上ChatGPT現在的水平是絕對有機會的。
“現在,ChatGPT已經做出了樣本,有開源技術做基礎,并不存在難以逾越的障礙,剩下的就是時間問題。我們需要在機制上進行創新,建設更加開放的生態,加強產學研各界的合作,充分發揮中國千萬級大學畢業生的優勢,利用眾包模式進行知識標注,去做基于人工標注的強化學習訓練。此外,必須效仿App Store模式,去建設基于ChatGPT的SaaS生態,因為ChatGPT本身就是SaaS云服務,具有成本低、使用門檻低、部署難度低的優勢,有可能成為新時代的操作系統,成為數字文明時代的水和電?!?周鴻祎稱。
▍總結
本周兩個生成式AI產品重磅發布。GPT-4是一個多模態大型語言模型,即支持圖像和文本輸入,以文本形式輸出;由于GPT-4具有更廣泛的常識和解決問題的能力,它可以更準確地解決難題。百度的生成式AI產品“文心一言”也將正式發布。
以GPT系列為代表的大型語言模型(LLM)能教會機器以統計方式理解自然語言,完成此前人類進行的內容讀取和理解。隨著多模態帶來的模型全面化,人工智能將向著擁有人類解釋能力這一目標更進一步。何去何從,我們拭目以待。
總結
以上是生活随笔為你收集整理的王炸-GPT4.0的新能力与商业价值的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 那些年你追过的女神:开发人员应该懂多少运
- 下一篇: 鸿蒙2.0正式开源,华为重磅押注开发者生