在“ChatGPT”和 AI 搜索引擎时代,谁控制着对信息的访问
“有了搜索引擎,我們依然需要花大量時間翻網頁找答案,如果 AI 能直接把答案遞到你眼前,還能保證正確率,那豈不是更好?但問題就在于如果。
作者:Waleed Rikab, PhD|
編譯:唐詩 |
ChatGPT 和其他聊天機器人也許很快就會取代作為我們通往網絡的門戶的最突出的搜索引擎。微軟和 OpenAI 最近宣布,他們正在擴大合作伙伴關系,其中可能包括將 OpenAI 的模型集成到 Microsoft Teams,Microsoft 的 Azure 云服務,Office Suite 和搜索引擎中。
同時,谷歌也不甘居于人下,可能會開始將基于其強大的 LaMDA 語言模型的產品集成到服務中,畢竟谷歌擁有著世界上目前最受歡迎的搜索引擎。
事實上,據媒體報道,谷歌正在急切地生產自己的 ChatGPT 風格的聊天機器人,稱為“學徒巴德 (Apprentice Bard)”,與 ChatGPT 不同,它能夠利用實時信息生成文本字符串來響應用戶的查詢。
這對我們訪問網絡內容意味著什么?這些語言模型將如何決定我們應該看到哪些信息?最后,支持人工智能的搜索引擎將如何改變知識的定義?
01、語言模型作為新的搜索引擎
可以肯定的是,今天的搜索引擎是由算法驅動的,這些算法決定了我們可以首先看到哪些結果,以及我們應該依靠哪些來源來形成我們對世界的了解。
雖然它們可能會排除結果并過濾掉圖形或非法內容,但當前的搜索引擎在很大程度上允許我們比較不同的來源和觀點,并由我們決定哪些結果是可靠的,特別是如果我們想要深入地挖掘搜索結果。
但另一方面,搜索引擎在辨別搜索請求的上下文方面出了名的糟糕,并且因為它們根據嚴格的層次結構對網站進行排名 (基于對受歡迎程度或權威性的考慮) 可能很難獲得所需的特定信息。然而,隨著時間的推移,人們已經開發出搜索技術來獲得更多精確的結果,例如將搜索詞放在引號中,使用布爾運算符,或將搜索限制為所需的文件類型或網站。
語言模型根據根本不同的原則工作,并且可能需要新的訓練來進行富有成效的搜索。語言模型在大量文本上進行訓練,以找到統計上可能的語言字符串,這些字符串表示為對主題的已知內容。這意味著以某種方式討論的主題越多,它在模型輸出中的突出程度就越高。
雖然這樣的架構聽起來可能具有創新性和效率,但確保至少部分邊緣信息不會以權威的形式出現,但它也令人擔憂,因為在這種設計中,語言模型定義的知識成為其流行性的同義詞。
換句話說,語言模型的設計有效地限制了我們從不同角度和多個來源檢查主題的能力。
更糟糕的是,語言模型面臨著進一步的挑戰,這也限制了它們的輸出。他們接受從互聯網和社交媒體收集的大量數據(例如大量的帖子)的訓練,能夠復制各種類型的人類話語,包括種族主義和煽動性觀點。ChatGPT 并不是應對這些挑戰的唯一模型,因為早期向公眾發布的聊天機器人也會復制令人反感的內容,最著名的是微軟的 Tay 和 Meta 的 Galactica。
因此,OpenAI 建立了嚴格的過濾器來限制 ChatGPT 的輸出。但在這個過程中,ChatGPT 的設計者似乎已經創建了一個模型,可以避開任何類型的內容,這些內容甚至可能引起輕微的爭議,即使有看似非常無害的提示,詢問如何描述美國總統 obama 或特朗普。
當我最近問 ChatGPT obama 和特朗普是否是好總統時,答案是這樣的:
在這個答案中,有幾個問題:
-
缺乏任何關于好總統定義的后續問題,軟件只是繼續給出答案,沒有進一步詢問。這種類型的反應可能適合于寫一首幽默詩,但人類作家討論這些問題都會從詢問有關前提和特定信息請求背后的期望的問題開始。
-
該模型避免了對兩位總統的任何評判:“無論如何,總統(obama 或特朗普)是復雜而多方面的,由他的行為和他執政的政治、社會和經濟背景決定。”無論政治觀點如何,這種保持在感知的“適當性”和“中立性”范圍內的動力似乎導致了非常平淡和缺乏信息的陳述。
-
我們不知道聊天機器人的信息來自哪里以及它是否值得信賴,因為它沒有引用來源。
過濾掉不需要的內容,并在用戶提示被視為不適當、敏感或違反使用條款時發出通用或預定輸出,可能會將過多的權力交給主要考慮保護其平臺而不是公共利益的組織。因此,這些組織可能會不適當地縮小允許的話語領域,以達到保護其工具或平臺聲譽的目標。
隨著這些新的 AI 文本生成器在幾秒鐘內生成復雜主題的回答,使用 AI 輸出來塑造可用知識的誘惑將越來越大,這也是用戶偏好的結果。
02、操縱的可能性
無論過濾器在語言模型中多么嚴格,創造性的用戶總是操縱這些模型以產生任何期望的結果,從而導致一個名為“prompt engineering”的新興領域。
利用有關如何訓練語言模型的技術知識,這些高級用戶可以操縱聊天機器人說出幾乎任何事情(一種稱為“越獄 jailbreaking”的技術),或者更糟的是,甚至通過“prompt engineering”執行有害代碼。執行這些“越獄 jailbreaking”并繞過 AI 聊天機器人過濾器的一種方法是欺騙它“認為”它正在參與游戲或幫助寫小說,如下所示:
另一種方法是說服聊天機器人它處于訓練模式:
這不僅僅是一個僅限于 ChatGPT 的問題。克勞德 —— 一個根據不同的審核原則訓練的新模型,似乎也容易受到 prompt engineering 和越獄的影響:
盡管克服各種類型的越獄和 prompt engineering 嘗試帶來了所有防御和學習過程,但用戶最近成功地操縱了基于 GPT 的模型來執行惡意代碼,表明這是對話聊天機器人的持續弱點:
03、這一切意味著什么
隨著每個人都急于利用 ChatGPT 的成功并引入越來越多的人工智能聊天機器人,語言模型的固有漏洞可能會變得更加明顯并影響大部分公眾,特別是如果這些聊天機器人被集成到當今領先的搜索引擎中或成為公眾尋求網絡信息的主要方式。
這種影響將包括高度受限的數據和一種旨在避免任何爭議的主題的通用表示。這種新的人工智能搜索引擎還需要不同類型的技能,以便讓他們產生所需的信息。它們還將產生旨在操縱這些模式以促進非法活動的新型專門知識。
享受大型科技公司的支持和資源,這些谷歌和微軟支持的人工智能搜索引擎可能比 ChatGPT 更準確,更有能力。但是,這種人工智能驅動的搜索引擎 —— 如果它們確實成為訪問網絡內容的主要門戶 —— 將賦予大型科技公司前所未有的力量,使用尚未經過適當測試的技術,其影響和效用尚不清楚。
對任何搜索查詢都提供聽起來合理且看似寫得很好的答案的承諾意味著 —— 這一次互聯網用戶也可能成為限制可用知識范圍的自愿參與者。
本文來自微信公眾號:出新研究 (ID:chuxinyanjiu),作者:唐詩
總結
以上是生活随笔為你收集整理的在“ChatGPT”和 AI 搜索引擎时代,谁控制着对信息的访问的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java转net容易吗_每日一醒(1):
- 下一篇: 怎么判断日出时间早晚_个个美哭!2020