當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

opencv相机标定和人头姿态估计案例

發布時間：2023/12/13 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了 opencv相机标定和人头姿态估计案例小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

頭部驅動除了之前關注的表情驅動外，還有眼球驅動和頭部方向驅動。本博客基于opencv官方文檔和部分開源代碼來研究如何基于人臉關鍵點獲取頭部的朝向。

國際慣例，參考博客：

opencv:Camera Calibration and 3D Reconstruction

opencv:Real Time pose estimation of a textured object

cv.solvePnP位姿估計旋轉向量精度分析

頭部姿態估計原理及可視化

重磅！頭部姿態估計「原理詳解 + 實戰代碼」來啦！

相機矩陣(Camera Matrix)

Python cv2.decomposeProjectionMatrix方法代碼示例

face_landmark

head-pose-estimation

Face-Yaw-Roll-Pitch-from-Pose-Estimation-using-OpenCV

talking-head-anime-demo

OpenVtuber

相機標定理論

幾種坐標系

先看從opencv官網中扒下來的兩幅圖，代表針孔相機模型(pinhole camera model)

其中涉及到幾種坐標系：

世界坐標系：一個固定不變的坐標系，原點通常固定不變，右圖的 $w$ 坐標系
相機坐標系：相機在世界坐標系下的姿態，右圖的 $c$ 坐標系
圖像坐標系：成像平面，圖中的x-y坐標軸，其原點是相機的光軸與成像平面的膠墊
像素坐標系：最終圖像，圖中的u-v坐標軸，原點在左上角，就跟opencv輸出的圖片一樣，左上角代表 $(0, 0)$ 像素位置。

圖像坐標系和像素坐標系橫軸和縱軸方向一致，但是單位不同，一個是物理單位，一個是像素單位，一般有一個對應的縮放關系，代表一個像素在成像平面上的大小。

針孔相機的目標就是把3D坐標點 $P_w$ 利用透視變換(perspective transformation)投影到圖像平面上，得到對應像素 $p$ 。其中 $P_w$ 和 $p$ 都在齊次坐標系下表示。

無畸變情況下，針孔相機的投影變換可以表示為：
$s\ p=A[R|t]P_w$
其中 $P_w$ 為世界坐標系下的3D坐標點， $p$ 是圖像平面上的2D像素點， $A$ 是相機內參矩陣， $R$ 和 $t$ 分別描述了世界坐標系到相機坐標系的旋轉和平移變換， $s$ 是任意尺度的投影變換(非相機模型的參數，其實就是圖像坐標系到像素坐標系的變換系數)。

世界坐標系到相機坐標系

旋轉-平移矩陣 $[R ∣ t]$ 是投影變換(projective transformation)和齊次變換(homogeneous transformation)的乘積。

維度為 $(3, 4)$ 投影變換可以將相機坐標系里的3D坐標映射到成像平面的2D坐標，并且在歸一化的相機坐標系 $x′=XcZcx'=\frac{X_c}{Z_c}$ 和 $y′=YcZcy'=\frac{Y_c}{Z_c}$ 下表示出來
$Zc[x′y′1]=[100001000010][XcYcZc1]Z_c\begin{bmatrix} x'\\ y'\\1 \end{bmatrix}=\begin{bmatrix} 1&0&0&0\\ 0&1&0&0\\ 0&0&1&0 \end{bmatrix}\begin{bmatrix} X_c\\Y_c\\Z_c\\1 \end{bmatrix}$
而齊次變換通常在相機外參 $R$ 和 $t$ 中體現出來，代表世界坐標系到相機坐標系的變換，因此給定一個世界坐標系下的點 $P_w$ ，那么相機坐標系下的對應點為:
$Pc=[Rt01]PwP_c=\begin{bmatrix} R&t\\0&1 \end{bmatrix}P_w$
這個齊次變換一般就是由一個(3,3)的旋轉矩陣和一個(3,1)的平移向量組成：
$[Rt01]=[r11r12r13txr21r22r23tyr31r32r33tz0001]\begin{bmatrix} R&t\\0&1 \end{bmatrix}=\begin{bmatrix} r_{11}&r_{12}&r_{13}&t_x\\ r_{21}&r_{22}&r_{23}&t_y\\ r_{31}&r_{32}&r_{33}&t_z\\ 0&0&0&1 \end{bmatrix}$
因此
$[XcYcZc1]=[r11r12r13txr21r22r23tyr31r32r33tz0001][XwYwZw1]\begin{bmatrix} X_c\\Y_c\\Z_c\\1 \end{bmatrix}=\begin{bmatrix} r_{11}&r_{12}&r_{13}&t_x\\ r_{21}&r_{22}&r_{23}&t_y\\ r_{31}&r_{32}&r_{33}&t_z\\ 0&0&0&1 \end{bmatrix}\begin{bmatrix} X_w\\Y_w\\Z_w\\1 \end{bmatrix}$
結合投影變換和齊次變換，就可以得到將世界坐標系下3D點映射到歸一化相機坐標系下的成像平面下2D點的變換：
$Zc[x′y′1]=[R∣t][XwYwZw1]=[r11r12r13txr21r22r23tyr31r32r33tz][XwYwZw1]Z_c\begin{bmatrix} x'\\y'\\1 \end{bmatrix}=[R|t]\begin{bmatrix} X_w\\Y_w\\Z_w\\1 \end{bmatrix}=\begin{bmatrix} r_{11}&r_{12}&r_{13}&t_x\\ r_{21}&r_{22}&r_{23}&t_y\\ r_{31}&r_{32}&r_{33}&t_z \end{bmatrix}\begin{bmatrix} X_w\\Y_w\\Z_w\\1 \end{bmatrix}$
其中 $x′=XcZcx'=\frac{X_c}{Z_c}$ ， $y′=YcZcy'=\frac{Y_c}{Z_c}$

相機坐標系到像素坐標系

相機內參矩陣 $A$ 通常用K表示，用于將相機坐標系下的3D坐標點投影到像素坐標系中。
$p=AP_c$
通常相機內參矩陣 $A$ 包含了以像素為單位的焦距 $f_x$ 和 $f_y$ ，以及靠近圖像中心的原點 $c_x,c_y)$ ：
$\begin{bmatrix} f_x & 0 & c_x \\ 0&f_y&c_y\\ 0&0&1 \end{bmatrix}$
所以
$s[uv1]=[fx0cx0fycy001][XcYcZc]s\begin{bmatrix} u\\v\\1 \end{bmatrix}=\begin{bmatrix} f_x & 0 & c_x \\ 0&f_y&c_y\\ 0&0&1 \end{bmatrix}\begin{bmatrix} X_c\\Y_c\\Z_c \end{bmatrix}$
相機內參，顧名思義只與相機自身有關，與外部環境無關，所以一次標定以后，只要你不動焦距，就可以永久使用。

總結：世界坐標系到像素坐標系

將內外參矩陣放在一起就能把 $s\ p=A[R|t]P_w$ 重寫成：
$s[uv1]=[fx0cx0fycy001][r11r12r13txr21r22r23tyr31r32r33tz][XwYwZw1]s\begin{bmatrix} u\\v\\1 \end{bmatrix}=\begin{bmatrix} f_x&0&c_x\\ 0&f_y&c_y\\ 0&0&1\\ \end{bmatrix}\begin{bmatrix} r_{11}&r_{12}&r_{13}&t_x\\ r_{21}&r_{22}&r_{23}&t_y\\ r_{31}&r_{32}&r_{33}&t_z \end{bmatrix}\begin{bmatrix} X_w\\Y_w\\Z_w\\1 \end{bmatrix}$
如果 $Zc≠0Z_c\neq0$ ，那么
$[uv]=[fxXc/Zc+cxfyYc/Zc+cy]\begin{bmatrix} u\\v \end{bmatrix}= \begin{bmatrix} f_xX_c/Z_c+c_x\\ f_yY_c/Z_c+c_y \end{bmatrix}$
其中
$[XcYcZc]=[R∣t][XwYwZw1]\begin{bmatrix} X_c\\Y_c\\Z_c \end{bmatrix}=[R|t]\begin{bmatrix} X_w\\Y_w\\Z_w\\1 \end{bmatrix}$
就得到最開始描述的左圖中的u-v坐標系映射模型了。

【注】上述理論是基于畸變參數為0的情況下，關于不為零的時候，請自行查閱opencv官方文檔描述或者其他資料。

頭部姿態估計

理論

通過內外參矩陣可以將世界坐標系下的3維點映射到成像平面，那么同理，可以利用相機內參、世界坐標系的3D點、成像平面的2D點，找到世界坐標系到相機坐標系的旋轉和平移(外參矩陣)。

在做頭部姿態估計的時候，我們僅僅知道人臉關鍵點，其它信息一無所知，那么應該怎么求解呢？

通過后五篇參考博客的源碼分析，大致流程就是：

建立一個虛假的3D頭模，找到幾個人臉關鍵點的3D坐標
假定當前相機的內參矩陣和畸變系數
利用solvePnP求解平移向量和旋轉向量
利用decomposeProjectionMatrix將旋轉向量轉換為歐拉角

其中solvePnP的函數描述如下：

retval, rvec, tvec = cv.solvePnP(objectPoints, imagePoints, cameraMatrix, distCoeffs[, rvec[, tvec[, useExtrinsicGuess[, flags]]]] )

輸入參數：

objectPoints：世界坐標系下的3D坐標
imagePoints：2D投影坐標
cameraMatrix：相機內參矩陣
distCoeffs：畸變系數

輸出：

rvec：旋轉向量，可使用Rodrigues轉換為旋轉矩陣
tvec：平移向量

其中decomposeProjectionMatrix的函數描述如下：

cameraMatrix, rotMatrix, transVect, rotMatrixX, rotMatrixY, rotMatrixZ, eulerAngles = cv.decomposeProjectionMatrix( projMatrix[, cameraMatrix[, rotMatrix[, transVect[, rotMatrixX[, rotMatrixY[, rotMatrixZ[, eulerAngles]]]]]]] )

輸入參數：

projMatrix：維度為 $(3, 4)$ 的投影矩陣 $P$

返回參數：

cameraMatrix：內參矩陣
rotMatrix：外部旋轉矩陣
transVect：外部平移矩陣
rotMatrixX：繞x軸旋轉的矩陣
rotMatrixY：繞y軸旋轉的矩陣
rotMatrixZ：繞z軸旋轉的矩陣
eulerAngles：旋轉歐拉角

實現

例如最后一個參考博客中的源碼解析分別為：

預加載3D人臉關鍵點模型

首先預加載一個3D人臉關鍵點模型，源碼提供了人臉的39個關鍵點，我提取了其中12個關鍵點，關鍵點坐標如下：
array([[ 29.64766 , 10. , 66.01275 ],[126.870285, 10. , 66.01275 ],[ 60.359673, 34.85047 , 44.13414 ],[ 25.144653, 33.933437, 39.87654 ],[ 96.15827 , 34.85047 , 44.13414 ],[131.37329 , 33.933437, 39.87654 ],[ 78.25897 , 88.78672 , 67.6343 ],[ 50.51882 , 109.59447 , 50.48531 ],[ 78.25897 , 105.25116 , 67.04956 ],[105.99912 , 109.59447 , 50.48531 ],[ 78.25897 , 119.950806, 60.976673],[ 78.25897 , 162.94363 , 40.70434 ]], dtype=float32)
原始39個關鍵點與對應提取的12個關鍵點在2D圖像上的位置關系如下：
提取真實人臉關鍵點

利用opencv或者HRNet模型，提取真實圖像中的2D人臉關鍵點，可參考之前換臉的博客，或者去我github上找源碼也可以，效果如下：
計算朝向
首先創建內參矩陣：
H,W = img.shape[0],img.shape[1] matrix = np.array([[W,0,W/2.0],[0,W,H/2.0],[0,0,1]])
然后求解外參矩陣，調用solvPnP函數求解旋轉向量和平移向量
_,rot_vec,trans_vec = cv2.solvePnP(obj[pick_model,...].astype("float32"),points[pick_dlib,...].astype("float32"),matrix,None,flags=cv2.SOLVEPNP_DLS)
將旋轉向量和平移向量組合成外參矩陣的形式
rot_mat = cv2.Rodrigues(rot_vec)[0] pose_mat = cv2.hconcat((rot_mat, trans_vec))
最后將旋轉向量轉換為歐拉角：
euler_angle = cv2.decomposeProjectionMatrix(pose_mat)[-1]
可視化效果如下：

后記

結果有時候受到你初始模型的影響，所以建議多找些源碼測試一下，找到一個合適的3D模型使用。而且在驅動卡通角色時候，由于建模和游戲引擎的原因，坐標系可能不同，因而歐拉角也要做適當的變換，比如我的項目基于python和unity交互的卡通角色肢體和表情驅動(深度學習)中關于表情驅動部分的實驗。

完整的python實現放在微信公眾號的簡介中描述的github中，有興趣可以去找找。同時文章也同步到微信公眾號中，有疑問或者興趣歡迎公眾號私信。

總結

以上是生活随笔為你收集整理的opencv相机标定和人头姿态估计案例的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：广发银行信用卡临时额度有效期多久？可以最
下一篇：京东闪付怎么开通？这些条件一个都不能少！