机器学习和图像识别是怎样彻底改变搜索的?
機器學習和圖像識別是怎樣徹底改變搜索的?
簡介
文本內容一般很好搜索,但有很多信息是以其他形式存在的。語音識別將音頻-以及視頻配樂-轉換成可以索引和搜索的文本。但如果是視頻本身,或其它的圖片內容呢?
如果不僅僅是在頁面上尋找指出圖片相關性的文字或是說明,那么在網絡上搜索圖片將準確很多。幸好有使用神經網絡和深度學習的機器學習技術,使得這個設想成為可能。
標題之爭
微軟和Facebook的研究人員創建了一個含有人工標記250萬個物品、超過300,000張圖片的大規模數據庫(被稱為Common Objects in Context),他們聲稱四歲孩子都可以識別出這些對象。所以微軟的一批機器學習方面的研究人員決心看看他們的系統對同樣的圖片能處理到何種程度——不僅僅是識別它們,還要把它們分離為不同的對象,為每個對象命名并寫下能描述整張圖片的標題。
為了評測結果,他們請一部分人寫下個人認為的圖片標題,再請另外一部分人比較圖片的兩個標題并選出他們認為比較適合的標題。
“這是真正能檢測質量的辦法,”微軟研究院的著名科學家約翰·普萊特(John Platt)說道,“到底人們對這些標題是什么看法呢?23%的標題被認為和人總結寫下的標題水平相當。也就是說大概有四分之一的時候這臺機器能夠達到人的水平?!?/p>
部分問題是視覺識別器。有時它可能會把貓識別成狗,或是認為長毛的都是貓,又或是把人指著雕塑的圖片識別為包含足球。這是一個小團隊歷經夏天的四個月就能達到的水平,而且這是他們第一次標記這么大規模的數據集來訓練和測試。
“我們可以做得更好,”普萊特自信地說道。
機器優勢
機器學習在辨別只包含一種事物的簡單圖片上已經做的相當不錯了?!斑@個系統已經被賦予一個未經訓練的人的水平了,”普萊特解釋道。這是針對一個稱作ImageNet的圖片集的測試,圖片集中的圖片被標記為2200個不同分類。
“那包含了一些未經訓練的人不知道的細微區別,”他宣稱?!跋衽聿剪斂送柺靠禄涂ǖ细柺靠禄粯印渲幸粋€的尾巴稍長。人可以研究很多小狗的特征然后學會了解之前并不知道的一些不同之處。如果是你非常熟悉的物體,識別它們會很簡單,但當2200個陌生物體放在你面前時,你可能會完全混淆?!比嗽贗mageNet測試中會有5%的錯誤率,而機器學習系統則會降至6%。
這意味機器學習系統在識別事物如狗的種類或是有毒植物方面可能比普通人的能力更好。另外一個叫作Project Adam的識別系統也正嘗試在手機端做到這些,就是MSR的負責人Peter Lee今年早些時候炫耀的那個。
Adam項目
Project Adam專注于研究是否能夠使用分布式系統而不是配置較高的單機來提高圖片識別的速度(所以它就可以運行在云端然后在你的手機端工作)。然而,它的訓練集合中只有僅包含一種物品的圖片。
“他們會問‘圖片里的是什么東西?’”普萊特解釋道,“我們將圖片分解為小方格然后去估測這個圖片的碎片,檢測其共同內容。圖片中物體是什么?這些都是名詞。他們在干什么?這些都是如飛行和看之類的動詞?!?/p>
“然后還有一些鄰接和上下關系,以及物品的屬性,一些形容詞如紅的,紫的,漂亮的。識別完整張圖片后自然就是將一張圖片中的多個物品放在一起然后提出一個具體的描述。你可以看著圖片能檢測出一些動詞和形容詞,這是非常有趣的一件事?!?/p>
強大的搜索
讓圖片更加有用
很多自動給圖片寫標題做標記的方法將會派上用場,特別在當你是一個主動去圖片庫或新聞網站尋找正確圖片的敏銳攝影師的時候。
“想到整理圖片很自然就想到了用圖片中的人物索引該圖片,”普萊特指出。有了更強大的標簽技術,就能夠搜索圖片中的對象(比如貓的圖片)或是動作(貓在喝水的圖片)又或是圖片中不同對象之間的關系。“如果我只記得我有一張圖片,其中有一個男孩和一匹馬,我希望能為它建立索引——既有男孩和馬,又要有他們的關系——然后將他們放到一個索引中以便我以后能搜索到他們。”
如果你正在匯總一個產品目錄,有一個能自動產生的標題將是非常有用的,但普萊特沒有發現太多這種特定需求。在微軟,不同的產品團隊對此都很有興趣,他說,但不是創建標題,他希望的是“這些板塊能被不同產品復用;在不同的場景下,這些代碼都能運行。”
檢索相關
處理視頻意味著需要加速識別過程,并研究出如何發現感興趣的地方(因為并不是每一幀都有用)。但這里重要的不僅僅是速度,還有那些潛存于復雜圖片自動標題技術之下的理解方式,它將改變搜索。
這里圖片識別使用的深度學習神經網絡和機器學習系統是相同的技術,都徹底變革了近幾年的語音識別和翻譯技術(促使微軟推出Skype翻譯)?!懊看文銓χ謾C上的必應搜索引擎說話就是在和一個深度網絡說話,”普萊特表示。微軟的視頻搜索系統,MAVIS,使用的就是深度網絡。
下一步就是要做到不只能識別,還能理解事物實際代表的意義。
他還表示,他們的目標是“真正理解對象的語義,這里的對象包括視頻、語音、圖片、文本。而不是停留在語言或顏色的表面形式上?!?/p>
總結
以上是生活随笔為你收集整理的机器学习和图像识别是怎样彻底改变搜索的?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何把握创业时机:当前的痛点也许是巨大的
- 下一篇: 快的打车联合创始人兼技术副总裁闻诚:CT