當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Mosaix首席科学家劳逆：弱监督学习是未来发展趋势

發布時間：2023/12/20 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 Mosaix首席科学家劳逆：弱监督学习是未来发展趋势小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Robin.ly?是立足硅谷的視頻內容平臺，服務全球工程師和研究人員，通過與知名人工智能科學家、創業者、投資人和領導者的深度對話和現場交流活動，傳播行業動態和商業技能，打造人才全方位競爭力。

本期Robin.ly AI技術專訪特邀Mosaix的聯合創始人、首席科學家勞逆博士分享他在機器學習、自然語言處理方向的研究經歷，以及對弱監督學習技術未來發展的見解。

勞逆博士畢業于卡耐基梅隆大學語言技術研究所。曾在Google從事知識圖譜和搜索問答系統研究。Mosaix2016年成立于硅谷，專注于開發可定制的、多語言人工智能語音助手應用服務。

勞逆在硅谷接受Robin.ly專訪

以下為精彩內容節選

長按二維碼或點擊“閱讀原文”

訪問Robin.ly觀看完整英文訪談視頻

? ?早期經歷

Wenli: 可以回顧一下您的成長經歷嗎？您上學的時候是運動健將，還是更喜歡看書？

Ni Lao：

我比較喜歡看書。以前別人給我起過一個綽號叫“熊貓”，因為我那時候很胖，很少運動，跟現在不太一樣。那會兒我更喜歡獨處，在非常認真的完整老師布置的作業之余，還會一個人靜靜地觀察大自然。

Wenli:?您后來獲得了卡內基 · 梅隆大學語言技術學院的博士學位，師從William Cohen。當初為什么選擇他作為導師，在他那里都學到了些什么呢？

Ni Lao：

我當時花了很多時間鉆研出了一些新的算法，他對我的工作很感興趣。我記得有一年的夏天，我正在考慮換導師，他剛好有一個項目，想讓我試試。于是我就寫了一個能夠在知識譜圖上進行推理的算法，可以用于推薦和搜索系統。他很滿意，直接就讓我加入他們的團隊。

William是個很有意思的人，愛彈班卓琴，每天都樂呵呵的，也希望自己的學生能享受生活。他很聰明，跟你聊幾句就能洞察你所面臨的問題，并告訴你如何解決；如果他一時沒有解決辦法，至少也會給你指明繼續探索的方向。

勞逆（右二）與導師William Cohen（左二）；圖片來源：noon99jaki.github.io

Google的工作經歷

Wenli:在讀博士期間，您的研究課題是自然語言處理和基于知識的系統。畢業后您加入了Google，他們推出了第一個基于知識的系統。您在Google工作這段期間都遇到過什么樣的挑戰呢？

Ni Lao：

那時候，基于知識的系統在工業界并不像現在這樣流行，但這一概念很早以前就有了。幾十年來，人們一直在研究這方面的技術。我認為是Google讓這個系統進入了主流領域，引起了人們的關注。我當時碰巧參與了一個由Google資助的項目，畢業后很自然的就加入了Google。

我在工作中面臨的挑戰，主要是如何用機器學習和自然語言處理來研究一些核心課題，比如如何理解網絡上的內容并利用這些信息構建知識譜圖，這個問題今天仍然沒有解決，進展非常緩慢。今天大家看到的大多數知識譜圖都是人工或者半人工生成的，經常需要人工驗證事實的準確性，甚至有時候還需要直接手動輸入信息。

Wenli:?我之前在您的個人網站上看到您在Google主要負責自然語言處理和問答系統的相關項目，還做過一些志愿者工作。您能不能詳細回顧一下這段經歷？

Ni Lao：

我在Google工作了五年半，主要負責問答系統的開發。這些項目大致可以分為兩類。第一類是關閉域問答（close domain question answering），可以利用知識譜圖中的信息回答問題，但只能回答一些特定類型的問題，比如一個人的配偶和職業等信息，前提是你必須事先生成知識譜圖來定義這種關系。另一類是開放域問答（open domain question ans-wering），需要在沒有任何預先定義的關系的前提下回答人們在網上提出的任何問題，這比第一類任務更具挑戰性。這兩類任務難度都很大，但背后用到的是不同的技術。

工作之外我的確還做了一些志愿者工作，組織過幾批中學生來Google園區參觀，邀請了一些工程師和科學家為他們介紹在Google工作是一種什么樣的體驗。我最喜歡Google的那種開放的工程師文化，所有人的代碼都是公開的，可供他人參考。這樣的環境有助于增強人與人之間的溝通，也能鼓勵員工相互協助。

Wenli：您在離開Google之后加入了Mosaix。當初還有其他初創公司聯系您嗎？為什么最后選擇了Mosaix？

Ni Lao：

很多創業公司都聯系過我，但最開始我并沒有考慮過要離開Google，直到接到了Mosaix的邀請。我覺得只有Mosaix做的是我真正想要探索的東西，也就是如何更好的理解互聯網上的信息，了解用戶，并試圖讓機器更好地為用戶服務。

機器學習算法的理解

Wenli:?咱們再談談技術。在機器學習中有監督學習，無監督學習，還有強化學習。您能簡要談談您對這些機器學習算法的理解嗎？

勞逆談監督學習、無監督學習和強化學習

Ni Lao：

這三個概念有些復雜都是很重要的概念，跟每個人都息息相關。假設你想讓一臺機器學習玩超級馬里奧的游戲，可以采用監督學習，一步一步的教機器怎么做。比如看到前面有一只烏龜，就應該跳過去；看到一枚硬幣，應該繼續前進。你需要明確諸如此類的指示，制定各種各樣的規則，還需要用人工進行標記。少了這些步驟，你就無法實現這樣的功能。

第二個是強化學習，也就是讓機器自己去探索最佳策略。你只需要定義一個比較高的目標，比如通關或拿到更多金幣，機器就會嘗試不同的策略，看看哪個能滿足你的要求，然后你再去不斷改進這個策略。在強化學習領域，我們已經實現了飛躍，比如AlphaGo或Atari Games，機器可以探索人類從未探索過的空間，找到更好的策略。但是存在兩個問題。首先，你需要找到機器可以探索的空間，這是個很重要的問題。對于Go來說情況比較簡單，探索的空間只是棋盤。但對于其他情況，比如自動駕駛汽車或玩超級馬里奧，你就必須定義更復雜的空間讓機器進行學習。比如讓機器玩游戲，就需要編寫無數的規則來實現最終的目標。第二，人們并沒有在強化學習中應用足夠多的學習理論，因此程序優化的效率不高，需要很長時間才能收斂，也需要大量數據才能改善其性能。

第三個是無監督學習，我認為這是解決強化學習問題的關鍵。對于監督學習，需要逐步標記機器應該做什么；對于強化學習，只需要提供最終目標讓機器去探索。而對于無監督學習，我們會讓機器自己去探索這個世界，預測一系列動作的結果，這些都是沒有被人為標記過的。例如圖像分類，可以利用ImageNet數據集中成千上萬貓的圖像來訓練機器識別出貓。但如果你想讓孩子分辨出什么是貓，只需要一張圖片就夠了。孩子們早就見過貓了，也能區分貓和其他動物的區別，在家長們幫孩子給貓貼上“貓”的標簽的時候，孩子的大部分學習過程在此之前就已經完成了。這就是為什么無監督學習在機器學習領域中如此重要。

說到這兒，我還想提一下Yann LeCun的蛋糕。比如說機器學習是一個蛋糕，其中大部分是無監督學習，目標是理解周圍的世界；蛋糕上還有一些糖霜，這是監督學習，有人工標簽和數據；最上面還有一個櫻桃，這是強化學習，可以優化你的目標。

換個角度說，如果糖霜是監督學習，余下的蛋糕和櫻桃都可以歸為弱監督學習。這是一個繁瑣的創新過程，也是機器學習未來的發展趨勢。

想要弄清楚如何更好的表征事物，比如定義一個空間讓模型去探索高質量的表征方式，必須要嘗試不同的模型結構。我們需要從動物學，心理學或神經科學中獲得靈感，還需要找到合適的應用場景和可觀的回報來推動這些創新。

LeCun的蛋糕（來源：Yann LeCun?ISSCC, San Francisco, 2019-02-18）

Mosaix 的特點和優勢

Wenli:Mosaix的語音助手與Siri和Alexa等科技巨頭打造的產品相比有什么區別？能舉個例子嗎？

Ni Lao：

我們先說業務部分。在我看來，語音助手就是互聯網的門戶。每個助手都會對互聯網的一部分內容進行索引，例如Alexa會對Prime視頻進行索引，而Google Assistant會對YouTube進行索引。但互聯網上的很多其他內容并不在二者的索引范圍內，我們的產品剛好可以填補這個空缺。

再說說技術部分。大公司擁有很多資源，可以雇傭許多人來編寫規則，標記數據，把控質量，打造語音助手。而我們采取的是不同的方式。我們會在一個系統中部署大量的機器學習算法，摸索機器應該如何思考，類似手動進行注釋。但是為了做到這一點，我們必須訓練這些算法，盡量只使用系統的最終輸出，反向傳播到位于過程中間的所有學習模塊，對其進行訓練。舉一個比較極端的例子，假如你只有用戶，沒有任何數據標簽人員。如果為用戶提供一些選項，你就能夠根據用戶的選擇判斷出用戶的意圖。但如果我們在最開始時沒有用戶該怎么辦呢？我們還是會想辦法做一些注釋。針對一個問題，會有人去評估系統的最終輸出應該是什么。它可以是對問題的解釋，也可以是結果，然后系統可以從輸出中學習。

讓機器理解網絡上的內容也是我們的目標之一。比如有人輸入“我想聽Taylor Swift的Love Story”。如果你知道Taylor Swift是一個歌手，她有一首歌名為“Love Story“，你就知道這個用戶在說”Love Story“時想表達什么意思。這就是我們理解內容的方式。我們還在繼續努力，希望對內容有更深入的了解，比如如何通過評論和描述了解電影，了解產品。

Mosaix團隊（圖片來源：勞逆）

Wenli:?你們的語音助手是如何在初始階段獲得用戶的？目前還需要克服哪些技術上的困難？下一步的目標是什么呢?

Ni Lao：

我認為提高性能和獲取用戶是一個先有雞還是先有蛋的問題。例如每個人都說搜索引擎非常智能，這是因為很多人都在使用它，而它只需要記住人們在看到結果后選擇的內容，從而進行后續的結果篩選。我們的系統也類似，人們用得越多，這個系統就會越智能。在獲得第一批用戶之前，我們必須確保我們的系統很可靠，能夠滿足人們的需求。我們很幸運，擁有非常強大的業務拓展團隊，下一個目標就是獲得更多用戶。我們正處于一場以吸引用戶為目標的競賽，類似早期的搜索引擎，每一家都希望能獲得更多用戶。（完）

點擊“閱讀原文”?訪問Robin.ly觀看完整英文訪談視頻。

合作轉載請加微信：robinly_assistant

相關閱讀

Caffe作者賈揚清：AI，從大數據演進到高性能計算

流利說硅谷AI Lab負責人劉揚：從教授到”AI虛擬老師“

Palantir早期員工、連續創業者Brien Colwell：創業動力源自創造文化

你“在看”嗎？

總結

以上是生活随笔為你收集整理的Mosaix首席科学家劳逆：弱监督学习是未来发展趋势的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：提取游戏文本
下一篇： basroot.dll丢失的解决方法_b