當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

物体的识别，检测，和分割

發(fā)布時(shí)間：2025/1/21 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了物体的识别，检测，和分割小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

物體的識別，檢測，和分割

1：物體檢測

輸入圖像 -> 特征 -> 分類器 -> 物體類別
- 我們生成圖片的時(shí)候，他的大小，長寬比都是不一樣的，有些還是躺著的
- 我們可以生成很多的框框，但是這些框框絕大多數(shù)可能都是背景，此時(shí)我們可以做一個二分類
- 二分類的問題：類間不夠緊湊（天空，草地，大海），類和類之間差別不大
- 解決這個問題，我們使用似物性估計(jì)，我們可以不使用框框，直接來做
- **ECCV 2014 Edge Boxes: Locating Object Proposals from Edges **，我們物體都是有邊界的，有一個邊界組成的，但是大海，天空可能邊界不是那么的明朗或者說就沒有邊界
- https://link.springer.com/content/pdf/10.1007/978-3-319-10602-1_26.pdf
- 我們采用邊緣檢測的技術(shù)，找到各個物體的邊緣，從而能夠?qū)τ行У奈矬w進(jìn)行框起來
- 兩個像素點(diǎn)，如果差值越大，那么說明這兩點(diǎn)的內(nèi)容發(fā)生了很大的變化，那么就不屬于同一個物體
- 數(shù)字圖像處理:邊緣檢測(Edge detection)：https://zhuanlan.zhihu.com/p/59640437
- 濾波：提取圖像特征，簡化信息；適應(yīng)圖像處理的需求，通過濾波消除圖像數(shù)字化時(shí)所混入的噪聲
- 濾波器從上到下，從左到右的遍歷，
- (其中 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-y4EQcx8k-1621872413398)(https://www.zhihu.com/equation?tex=R_%7B5%7D)] 表示當(dāng)前像素點(diǎn)， [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-iTieLfk1-1621872413410)(https://www.zhihu.com/equation?tex=R_%7Bi%7DG_%7Bi%7D)] 表示當(dāng)前像素與濾波器對應(yīng)值相乘的值，n為濾波器大小，舉例來說如若此濾波器值全為1，則此公式計(jì)算的是當(dāng)前像素點(diǎn)的8連通像素點(diǎn)的平均值，因此濾波完后的圖像應(yīng)表現(xiàn)為模糊的效果，模糊程度取決于濾波器的大小，濾波器大小(size)越大，模糊效果越明顯)
- 邊緣檢測算子
  - Sobel
  - Prewitt
  - Roberts
物體檢測
- 目標(biāo)：找到圖像中的已經(jīng)直到類別的物體，屬于CV中的圖像理解
- 圖像處理，圖像分析，圖像理解：三個大的方向
- 輸入：一張圖片
- 輸出：一個或者是多個物體（包含類別和邊界框）
- 挑戰(zhàn)：物體定位和物體識別，識別出來并且把他框出來
- 兩階段的
  - 先從圖像中選出若干個可能是物體的框框，然后再對這些框框做分類
  - RCNN；Fast RCNN；Faster RCNN
  - RCNN 是把selective search 和AlexNet 兩項(xiàng)工作合起來了，有的人覺得沒技術(shù)含量
  - 但是有時(shí)候把兩項(xiàng)不那么相關(guān)的技術(shù)合起來，并且還有很好的效果，這就是一種創(chuàng)新
- 單階段的
  - 不需要預(yù)先檢測出框框，直接由圖像生成最后的結(jié)果
  - You Only Look Once
  - https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf
  - 關(guān)鍵技術(shù)
    - 在原圖中劃分為S X S的網(wǎng)格，如果一個目標(biāo)的中心落入某個格子，這個格子就負(fù)責(zé)檢測該目標(biāo)
    - 每個網(wǎng)格要預(yù)測 B 個bound ing boxes，以及C 個類別概率，每個bounding box預(yù)測五個變量
    - 全連接層輸出reshape成 SXSX(5*B+C)的多維矩陣，通過NMS得到輸出框框
  - YOLO V3 放飛自我，寫的和博客一樣
  - https://arxiv.org/pdf/1804.02767.pdf
  - YOLO V3之后，原作者就不寫了，4和5都不是原作者寫的，所以5不一定比4好
- 細(xì)粒度物體識別
  - 目標(biāo)：對物體類別進(jìn)行更加細(xì)致的分類
  - 輸入：一張鳥
  - 輸出：哪一個類別的物體
  - Fine Grained Recognition without Part Annotations
  - 需要學(xué)習(xí)到鳥類的領(lǐng)域知識

總結(jié)

以上是生活随笔為你收集整理的物体的识别，检测，和分割的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

物体

上一篇： CMU（1）导论课
下一篇： tensorflow 报错（完善中）