當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Activity Recognition行为识别

發布時間：2025/3/21 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 Activity Recognition行为识别小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

暑假聽了computer vision的一個Summer School，里面Jason J. Corso講了他們運用Low-Mid-High層次結構進行Video Understanding 和 Activity Recognition的方法，受益頗深，在這里把他的方法總結一下:

-------------------------------------------------------------------------------------------------

1. 層次結構表示：

底層part 重用
每個object都是一個由有向和無向邊連接起來的混合圖
底層通過非線性學習讓原子節點形成時空線、平面和區域

人的活動呢，就是這些object在中層和高層連接的混合圖

-------------------------------------------------------------------------------------------------

2. Motion Perception——STS

Different action stimulate different subpopulation of cells.

-------------------------------------------------------------------------------------------------

3. Activity Recognition

Corso的方法：

Low-Level：底層最effective的做法是Bag of Features，特征為bottom-up / low level的時空特征，隨著時間和層次不斷update。通過模版進行底層object檢測；
Mid-Level：中間層從images中檢測、跟蹤2D骨架pose，并通過背景內容分析動態pose；
High-Level：高層活動組合方法為，將不同時間點的feature組成時間-概率模型。時間上進行feature的時空跟蹤，概率上根據組成語法進行概率模型的組合。
Recognition的另一種表示方法：Segmentation

思想：建立Space-Time Patch Descriptors，組成visual Words直方圖，建立多通道分類器。

找出shikongHarris角點：

要求在feature上進行Densely Sample而非Sparse Sample。

提取Action Feature：f，用HOG/HOF描述

Space-Time Patch描述子形成histogram。每個histogram，是特征點在x，y，t三個分量上的直方圖。

但是采用HOG、HOF存在問題，就是只能從前后幀去看，而不能考慮整個球的特征變化。出于這一想法，提出了HOG3D, 該特征在BMVC08中有文章進行具體描述，此處不予贅述，大家有興趣去看文章吧。

-------------------------------------------------------------------------------------------------

4. 行為軌跡

采用?KLT: Kanade-Lucas-Tomasi Feature Tracker?進行特征點的跟蹤，可作為局部特征檢測的輔助手段。

Trajectories by Local Keypoint Tracking
Use Dense Trajectory（Dense sampling can improve object recognition and action recognition）
CVPR 2011?Wang et al. “Action Recognition by Dense Trajectories.”中提出了一種方法，用一個單密度光流場跟蹤軌跡
用HOG/HOF/MBH進行軌跡點描述

-------------------------------------------------------------------------------------------------

5. Action Bank

圖中所示為Action bank的基本思想<CVPR 2012:?Action Bank: A High-Level Representation of Activity in Video>

Action bank :

記錄在不同scale和viewpoints的一個大action detector集合
在Ns個scales上進行檢測，action bank上有Na個detector，每組action-scale上有1^3+2^3+4^3=73維向量。所以action bank特征向量共有Na*Ns*73維(關于73怎么來的可以詳細參考《Beyond Bags of Features: Spatial Pyramid Matching?for Recognizing Natural Scene Categories》)
實際做的時候采用1-2個scale上的detector

二維圖像識別問題中，object bank的分bin統計方法，視頻中的action bank就是搞成三維統計（加一維時間）

classifier 使用SVM分類器：

e.g. 對于打籃球這個action，根據高層表現，將jumping ,throwing, running 加入正樣本，將biking，fencing，drumming加入負樣本，用SVM進行打籃球二類分類訓練。
PS: 作者曾使用L1-Regularization 和隨機森林，都沒有明顯的改善。

實現Action Bank的建立：

1. ?選取UCF上的50個action，KTH上6個action和visint.org上的digging action，組成205 templates totally

2. ?每個action選擇3-6個不同視角、style或運動節奏的examples

3. ?平均分辨率：50×120pixel；40-50frames/example

簡單的說呢，就是根據不同視角、style和運動節奏來描述一個templates，由此組成了205個模版，描述57個action。

關于模版

1. ?只要一個新的視點/運動節奏/style被找到了，就選擇該模板 2. ?每個template都由人工裁剪到時空范圍內都有human action的大小
Action Bank分類結果：

-------------------------------------------------------------------------------------------------

6. ?基于Human Pose方法的Activity 識別

?將人分為不同part，進行各部分的姿勢估計可以清晰的進行model描述。

3D Human Pose Estimation:

-------------------------------------------------------------------------------------------------

7. ?基于Parts的Human Pose Estimation

模型結合了局部appearance和對稱結構，有多篇文章涉及模型估計：

Pictorial Structures (Fischler & Elschlager 73, Felzenswalb and Huttenlocher 00)?
Cardboard People (Yu et al 96)?
Body Plans (Forsyth & Fleck 97) ?
Active Appearance Models (Cootes & Taylor 98)?
Constellation Models (Burl et all 98, Fergus et al 03)

采用deformable part model

Slide credit: D. Ramanan. ?Method is from Yang and Ramanan, CVPR 2011.

Result：

Dynamic Pose based Activity Recognition

1. For skeletal pose, we construct a k-means codebook of 1000 visual?words from 24-dimensional skeletal pose data using Euclidean?distance. For dynamic pose, we construct codebook using our specific?distance function. ?
2. For classification we use many one-versus-one histogram intersection?kernel SVMs.?
3. 處理dynamic pose和全局context都在動的情況，用 HoG3D and Dense Trajectory可得better效果。 ? ? ?

-------------------------------------------------------------------------------------------------

9.視頻分割：Beyond Points for Video Understanding

標準方法：

meanshift?
Graph-Based?
Hierarchical graph-based?
Nystrom normalized cuts
Segmentation by weighted aggregation

ECCV 2012 Xu, Xiong and Corso的方法：將視頻看做一個流，根據流向和時間上的馬爾科夫假設建立一個估計構架，進行video分割。

Segmentation: S?= {S1, S2, ... , Sm}

Input Video: V = {V1, V2, ... , Vm}（時間序列上的輸入流）

取S*=arg min E(S|V)

在一個layer的分割中采取：

在整個hierarchy中采取同樣假設：

from:?http://blog.csdn.net/abcjennifer/article/details/7976145

總結

以上是生活随笔為你收集整理的Activity Recognition行为识别的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。