AI_图像标注:图像标注简介
一. Image Caption任務簡介
1.傳統的計算機視覺任務
深度學習在圖像領域取得了爆炸式的發展,這些任務的正確率直逼人類水平,可是:
2.計算機已經理解圖像了嗎?
?
這是faster-rcnn的一個目標檢測結果,看似結果非常好,可是當我們把這張照片輸入到一個計算機里時,它能告訴我們的只是:“這是馬,這是人,這是狗”,這遠遠沒有達到計算機已經理解圖像這一個判斷。我們希望的是,當輸入這一張照片時,計算機能夠告訴我們:“一個人騎在一匹馬上,他的狗坐在馬前面”。我們甚至希望計算機在看到這幅圖片后能夠說出下面這段話:“在一個陽光明媚的下午,一個穿著藍色衣服的年輕小伙坐在一匹健壯的馬上,他的愛犬坐在馬的前面,他們相互對望著,看起來非常開心”。這樣才能勉強說計算機已經理解了圖像。
3.Image Caption涵義
(圖像標注 圖像字幕 看圖說話 圖像理解)
本質是視覺到語言(Visual-to-Language,即V2L)的問題
這張照片是一年級看圖說話的作業,上面的描述:”圖上是什么時候?都有誰?在哪里?在干什么?在說什么?“ 正好對應了image caption任務的要求:根據圖像給出能夠描述圖像內容的自然語言語句。這對人類來說實在是一個小兒科的任務,但是在計算機視覺領域卻不能不說是一個挑戰。因為這需要在兩種不同形式的信息(圖像信息到文本信息)之間進行“翻譯”。
4.Image Caption 當前水平
和人類水平描述差距仍然明顯!
關于image caption這個topic階段性文章
?Explain Images with Multi modal Recurrent?Neural Networks, Mao et al.
?Deep?Visual-Semantic Alignments for Generating Image Descriptions,Karpathy?and?Fei-Fei
?Show?and Tell: A Neural Image Caption Generator,Vinyalset al.
?Long-term?Recurrent Convolutional Networks for Visual Recognition and Description,Donahue et al.
?Learning a Recurrent Visual?Representation for Image Caption Generation, Chen and?Zitnick
5.Image Caption 實際應用
圖像標注問題如果能夠得到很好的解決,那么價值是顯而易見的
圖像檢索(更細粒度的搜索)
視力受損人士的生活輔助(計算機成為另一雙眼睛)
6.Image Caption數據集
1. Microsoft COCO Caption數據集
? 原COCO數據集中約330,000張圖像,人工地為每張圖像都生成了至少5句標注,標注語句總共超過了約150萬句?
? MS COCO C5/C40
2. Flickr8K和30K
? 圖像數據來源是雅虎的相冊網站Flickr?
? 數據集中圖像的數量分別是8,000張和30,000張
3. PASCAL 1K
? 大名鼎鼎的PASCAL VOC challenge圖像數據集的一個子集
? 20個分類,隨機選出了50張圖像,共1,000張圖像?
7.Image Caption評價標準
BLEU
? 圖像標注結果評價中使用最廣泛,設計初衷并不是針對圖像標注問題,而是針對機器翻譯問題?
? 分析待評價的翻譯語句和參考翻譯語句之間n元組的相關性
?
?
總結
以上是生活随笔為你收集整理的AI_图像标注:图像标注简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谷歌浏览器不能使用opener属性的问题
- 下一篇: oracle utl file putf