當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

视频检索扫盲（一）

發布時間：2024/4/15 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了视频检索扫盲（一）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

開始做視頻檢索相關的東西，發現好多基本的概念都不懂……唉，真的是隔行如隔山啊……

加油：）

今天看了一篇Paper《A survey on Content based video retrieval》，從其中的一些關鍵詞的了解開始吧。

（四處粘貼，權作筆記，非原創，罪過罪過……）

------------------------------------------------------------------------------------------------

DCT 離散余弦變換(Discrete Cosine Transform)

百度百科：　　

?????? 離散余弦變換（DCT）是N.Ahmed等人在1974年提出的正交變換方法。它常被認為是對語音和圖像信號進行變換的最佳方法。為了工程上實現的需要，國內外許多學者花費了很大精力去尋找或改進離散余弦變換的快速算法。由于近年來數字信號處理芯片（DSP）的發展，加上專用集成電路設計上的優勢，這就牢固地確立離散余弦變換（DCT）在目前圖像編碼中的重要地位，成為H.261、JPEG、MPEG 等國際上公用的編碼標準的重要環節。在視頻壓縮中，最常用的變換方法是DCT,DCT被認為是性能接近K-L變換的準最佳變換，變換編碼的主要特點有：

　　（1）在變換域里視頻圖像要比空間域里簡單。

　　（2）視頻圖像的相關性明顯下降，信號的能量主要集中在少數幾個變換系數上，采用量化和熵編碼可有效地壓縮其數據。

　　（3）具有較強的抗干擾能力，傳輸過程中的誤碼對圖像質量的影響遠小于預測編碼。通常,對高質量的圖像，DMCP要求信道誤碼率，而變換編碼僅要求信道誤碼率。

　　DCT等變換有快速算法，能實現實時視頻壓縮。針對目前采用的幀內編碼加運動補償的視頻壓縮方法的不足, 我們在Westwater 等人提出三維視頻編碼的基礎上, 將三維變換的結構應用于視頻圖像壓縮, 進一步實現了新的視頻圖像序列的編碼方法。

motion vector 運動矢量

Wikipedia：

?　　In video compression, a motion vector is the key element in the motion estimation process. It is used to represent a macroblock in a picture based on the position of this macroblock (or a similar one) in another picture, called the reference picture. The H.264/MPEG-4 AVC standard defines motion vector as:

　　motion vector: A two-dimensional vector used for inter prediction that provides an offset from the coordinates in the decoded picture to the coordinates in a reference picture.

MPEG 動態圖像專家組（Moving Pictures Experts Group/Motin Pictures Experts Group）

?百度百科：

　　MPEG標準的視頻壓縮編碼技術主要利用了具有運動補償的幀間壓縮編碼技術以減小時間冗余度，利用DCT技術以減小圖像的空間冗余度，利用熵編碼則在信息表示方面減小了統計冗余度。這幾種技術的綜合運用，大大增強了壓縮性能。

IPB

http://blog.csdn.net/zblue78/archive/2009/04/10/4061623.aspx：

????? IF——I-frame的縮寫，即關鍵幀。關鍵幀是構成一個幀組（GOP，Group of Picture）的第一個幀。IF保留了一個場景的所有信息。壓縮比為1：7。
????? PF——P-frame的縮寫，即未來單項預測幀，只儲存與之前一個已解壓畫面的差值。壓縮比為1：20。
????? BF——B-frame的縮寫，即雙向預測幀，除了參考之前解壓過了的畫面外，亦會參考后面一幀中的畫面信息。壓縮比為1：50。

B-Frame（在 MPEG-4 里面正確的名稱是 B-VOP）的預測模式有四種：

????? a. Forward 順向預測，參考前一張畫面，記錄和前一張畫面的差距。和 P-Frame 的預測方法一樣。
????? b. Backward 逆向預測，參考下一張畫面，記錄和下一張畫面的的差距。
????? c. Bi-Directionally 雙向預測，參考前面和后面兩張畫面，記錄的是和「前后兩張畫面的平均值」的差距。也叫做內插預測，壓縮率最高。
????? d. Direct Mode，不搜尋、紀錄動作向量，直接由下一張的 P Frame推導出動作向量。譬如說 I B P，我們可以預測 B 畫面的動作必然是介于 I 和 P 兩個畫面之間，所以我們可以直接用 P 的 MV/2 作為B 的動作向量，這樣可以省去記錄 MV 的空間。
壓縮 B-Frame 的時候會從上面幾種預測模式中選壓出來最小的一個模式來使用。

轉載于:https://www.cnblogs.com/YFYkuner/archive/2010/09/04/1818250.html

總結

以上是生活随笔為你收集整理的视频检索扫盲（一）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

视频

上一篇：自动生成WebForm中对实体类的编辑页
下一篇： BizTalk Server 2010新

编程问答

视频检索扫盲 （一）

總結

视频检索扫盲（一）