CV 复习(大纲)
文章目錄
- 計算機視覺導論
- 1:提出
- 7:文字檢測和識別
- 1:OCR
- 6:行人檢測,重識別和姿態(tài)估計
- 5:人臉檢測和識別
- 計算機視覺課程完全不知道怎么復習,由于沒有咋讀過論文,所以PPT里面的東西基本都看不懂。
- 以后碰到PPT里面有論文的,還是要提前讀一讀
計算機視覺導論
1:提出
-
1966年的MIT的一個暑假項目,構(gòu)建視覺系統(tǒng)的主體部分
-
20世紀70年代
- 在解決推理和規(guī)劃等問題之前,視覺輸入的處理
- 與數(shù)字圖像處理相區(qū)別的是從圖像中恢復場景的三維結(jié)構(gòu)并更好的理解場景
- 數(shù)字圖像處理,計算機圖像處理,將圖像信號轉(zhuǎn)變?yōu)閿?shù)字信號并且利用計算機進行處理的過程,通過計算機對圖像進行去除噪聲,增強,復原,分割,提取特征。
- Block word
- 線條標注(line labeling)
- 邊緣檢測(edge detection)
- 非多邊形的三維建模
- 采用廣義錐作為部件,通過圖案結(jié)構(gòu)彈性安排部件
- 圖像分割
-
20實際80年代
- 利用本征圖像,理解亮度和陰影的變化
- 立體視覺對應
- 基于亮度的光流
- 圖像金字塔
- 由X到形狀
- 更好的邊緣檢測算法:動態(tài)演化輪廓跟蹤器
- 三維數(shù)據(jù)的處理
- 利用變分優(yōu)化的思想,是用正則化來加強魯棒性
- 馬爾可夫隨機場來表達
-
20世界90年代
- 光流
- 多視角重建
- 跟蹤:粒子濾波
- SIFT(手工提取的一個巔峰,基于局部匹配,能夠找到圖片的穩(wěn)定點和關(guān)鍵點)
- 統(tǒng)計學習方法,CV技術(shù)首先使用在照相機上,用于對焦
-
21世紀
- 圖割
7:文字檢測和識別
1:OCR
-
purpose:識別圖像中的文字信息
-
input:一張圖像
-
output:圖像中的文字
-
evaluation:
- 平均編輯距離:衡量整篇文章的指標,反映順序,多識別,漏識別
- 字符識別準確率:所以字符的正確率,但是無法反應漏識別
- 文本行識別成功率:
-
簡單理解
- 漢字,十萬個字
- 阿拉伯數(shù)字:10
- 英語52 大小寫
- 特征提取(還是是用滑動窗口或者是候選框嗎?分割)
- 字符分類器,不同語種的字符數(shù)量差異巨大,并且相似度不同
-
印刷體文字識別
- 字符排列規(guī)整:易于檢測
- 基于模板
- 字符排列規(guī)整:易于檢測
-
手寫體文字識別
- 聯(lián)機手寫文字識別 / 實時手寫識別 / 在線手寫體識別
- 人在手寫文字的時候,及其根據(jù)所書寫文字的比劃,筆順等特征
-
脫機手寫 / 離線手寫文字識別
- 先寫在紙上,然后掃描成圖像,再識別文字
- 脫機識別和印刷體識別相似,但是手寫隨意性太大,對字符檢測和識別都很難
-
STR (Scene Text recognition)
- 多種語言文本混合
- 方向
- 模糊,變形
-
傳統(tǒng)文本檢測 + 識別
- 先進行壁畫和字符的檢測,基于連接組件和基于滑動窗口的兩種方法,再進行非文本過濾。
- 手工特征SWT,MSER無法利用上下文的信息
- 預測過程中,前端使用標準的CNN提取文本圖像的特征,利用BLSTM將特征向量進行融合以提取字符序列的上下文特征,然后將每列的特征改了吧分布,最后通過轉(zhuǎn)錄層CTC進行預測得到文本的序列。
-
SegLink
- 角度的靈活檢測,模型不僅能夠?qū)W習和輸出邊框的位置,還能夠輸出文本框的旋轉(zhuǎn)角度誰他
- 切片,然后連接各個字的中心點,得到旋轉(zhuǎn)角度
- 增加了對于角度的檢測,使得對于各種角度的文本都具有魯棒性
-
基于候選框
-
基于分割
-
CRNN
-
端到端的
6:行人檢測,重識別和姿態(tài)估計
- 基于手工提取特征
- 基于部件檢測
- 基于深度學習
- joint
- 行人的重識別
- 基于手工特征
- 深度學習
- 姿態(tài)估計
- 單人姿態(tài)估計
- 多人姿態(tài)估計
5:人臉檢測和識別
- 基于模板的方法
- 基于ADBOOST
- 非約束環(huán)境下的人臉檢測
- 深度學習
- 人臉識別
- 基于特診匹配基于深度學習
- 人臉的對其
- 美顏
- GAN
總結(jié)
- 上一篇: 使用resNet网络 进行图像分类(ju
- 下一篇: MASK -RCNN