當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记：Group Equivariant Convolutional Networks

發布時間：2025/3/21 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记：Group Equivariant Convolutional Networks 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Group Equivariant Convolutional Networks

1、四個問題

要解決什么問題？

對卷積神經網絡進行擴展，并提出一個在特定的變換（旋轉、平移等，也可表示為一個特殊的群）下具有等變性的網絡。

用了什么方法解決？

提出了一種新的卷積神經網絡結構——群等變卷積神經網絡（Group equivariant Convolutional Neural Network），簡寫為G-CNN。
G-CNN中采用了群卷積（Group Convolution，簡寫為G-convolution）。

效果如何？

作者在帶有旋轉變換的MNIST和CIFAR數據上進行了實驗，證實旋轉群CNN能較好地抗旋轉。

還存在什么問題？

實驗不夠充分，MNIST和CIFAR都是相對簡單的數據集，基本上準確率不會太低。
文中定義的旋轉群只是針對二維圖像，如果定義的旋轉群擴展到三維會怎么樣？

2、論文概述

2.1、簡介

盡管現階段的神經網絡還缺少理論支撐，但是許多經驗及實驗都驗證了：卷積權值共享（convolutional weight sharing）和網絡深度（depth）對于神經網絡的效果起到了重要作用。
卷積權值共享的有效性依賴于其在大多數感知任務中都具有平移不變性：預測標簽的函數和數據分布對于平移變換都近似于不變。
得益于平移不變性，共享權重的卷積核可以從圖像的局部區域提取特征，并且參數量遠少于全連接網絡，同時能夠學習更多有效的變換信息。
**平移不變性（translation equivariant）**的定義：
- 將圖片平移后再送入若干卷積層得到的結果，與將原圖直接送入相同卷積層得到結果后再對特征圖進行平移所得到的結果一樣。
CNN中已經具有了平移不變性，這篇論文的工作是將神經網絡拓展到更大的群上，引入更多的對稱性，如旋轉（rotation）和反射（reflection）。

2.2、結構化和等變特征表示

感覺這一段用原文更好理解：
We construct representations that have the structure of a linear G-space, for some chosen group G. This means that each vector in the representation space has a pose associated with it, which can be transformed by the elements of some group of transformations G. This additional structure allows us to model data more efficiently: A filter in a G-CNN detects co-occurrences of features that have the preferred relative pose, and can match such a feature constellation in every global pose through an operation called the G-convolution.
對于一個網絡或是網絡的一層 $Φ\Phi$ ，將輸入特征映射到輸出特征，應該保留結構信息（structure preserving）。對于G空間上來說， $Φ\Phi$ 具有等變性的定義如下：
- $Φ(Tgx)=Tg′Φ(x)\Phi\left(T_{g} x\right)=T_{g}^{\prime} \Phi(x)$
- 對輸入 $x$ 進行變換 $g$ ，用公式表示就是： $T_g x$ ，然后將其送入函數 $Φ\Phi$ 中輸出結果 $Φ(Tgx)\Phi\left(T_{g} x\right)$ 。
- 先將輸入 $x$ 送入函數 $Φ\Phi$ 中，然后對其輸出的特征圖進行變換 $g$ ，輸出的結構是 $Tg′Φ(x)T_{g}^{\prime} \Phi(x)$ 。
- 等變性（Equivariance）就意味著上述兩種變換是相等的。
- 變換操作 $T$ 和 $T′T^{\prime}$ 不需要完全相同，只需要它們對于任意兩種變換 $g$ 和 $h$ 來說都滿足： $T (g h) = T (g) T (h)$ 。（ $T′T^{\prime}$ 同理）
在深度學習中，通常來說，等變性（equivariance）比不變性（invariance）更重要，因為我們無法根據不變特征判斷其空間關系（比如人臉的眼睛、鼻子、嘴巴的空間關系）。

2.3、數學框架

2.3.1、對稱群

對于一個對象來說，對稱性指的是，在一次變換前后，對象不變。
- 對于圖像上采樣的網格 $Z2\mathbb{Z}^{2}$ 來說，對其進行翻轉得到： $?Z2={(?n,?m)∣(n,m)∈Z2}=Z2-\mathbb{Z}^{2} = \left\{(-n,-m) |(n, m) \in \mathbb{Z}^{2}\right\}=\mathbb{Z}^{2}$ 。。
- 所以翻轉對于采樣的網格來說是對稱的。
有以下性質的變換的集合被稱為對稱群（symmetry group）：
- 如果有兩個對稱變換（symmetry transformations） $g$ 和 $h$ ，將他們組合起來得到的結果 $g h$ 也是一個對稱變換。
- 逆變換 $g^{-1}$ 也是一個對稱變換，將其與變換 $g$ 組合起來，得到的是恒等變換。
一個簡單的例子就是2D圖片上的整數平移群， $Z2\mathbb{Z}^{2}$ 。
- 群操作為平移。
- $(n, m) + (p, q) = (n + p, m + q)$
- 兩個平移變換之和依然是一個平移變換，對平移變換取逆也是一個平移變換，所以這是一個群。

2.3.2、 $p 4$ 群

$p 4$ 群是由繞方形網格的中心以90度角進行旋轉和平移變換組成的群。
這個群的元素至少采用三個整數 $r$ ， $u$ ， $v$ 定義：
- $v)=\left[\begin{array}{ccc}{\cos (r \pi / 2)} & {-\sin (r \pi / 2)} & {u} \\ {\sin (r \pi / 2)} & {\cos (r \pi / 2)} & {v} \\ {0} & {0} & {1}\end{array}\right]$
- 其中 $\leq r < 4$ ，并且 $\in \mathbb{Z}^2$ 。
- 這個群上的二元操作由矩陣乘法給出。
$p 4$ 群作用在$ \mathbb{Z}^2 $上的點，等于將矩陣$ g(r, u, v) $與其次坐標特征向量$ x\left(u^{\prime}, v^{\prime}\right)$相乘：
- $\simeq\left[\begin{array}{ccc}{\cos (r \pi / 2)} & {-\sin (r \pi / 2)} & {u} \\ {\sin (r \pi / 2)} & {\cos (r \pi / 2)} & {v} \\ {0} & {0} & {1}\end{array}\right]\left[\begin{array}{l}{u^{\prime}} \\ {v^{\prime}} \\ {1}\end{array}\right]$

2.3.3、 $p 4 m$ 群

$p 4 m$ 群由以下操作組成：繞中心點的90度旋轉，鏡像，平移。
與 $p 4$ 群一樣，可以表示為矩陣形式：
- $v)=\left[\begin{array}{ccc}{(-1)^{m} \cos \left(\frac{r \pi}{2}\right)} & {-(-1)^{m} \sin \left(\frac{r \pi}{2}\right)} & {u} \\ {\sin \left(\frac{r \pi}{2}\right)} & {\cos \left(\frac{r \pi}{2}\right)} & {v} \\ {0} & {0} & {1}\end{array}\right]$
- 其中 $\in \{ 0, 1 \}$ ， $\leq r < 4$ ，并且 $\in \mathbb{Z}^2$ 。

2.3.4、群上的函數

在CNN中的函數 $\mathbb{Z}^{2} \rightarrow \mathbb{R}^{K}$ 通常是定義在一個有界域上（圖像–矩形域）。每一個像素坐標 $\in \mathbb{Z}^{2}$ ，對應著函數 $f$ 返回的特征圖上的一個 $K$ 維特征向量 $f (p, q)$ 。
定義在特征圖上的一種變換為 $g$ ：
- $[Lgf](x)=[f°g?1](x)=f(g?1x)\left[L_{g} f\right](x)=\left[f \circ g^{-1}\right](x)=f\left(g^{-1} x\right)$
- $L_g$ 表示對特征圖進行 $g$ 變換。
- 這個公式的意思是，要得到進行 $g$ 變換后的特征圖 $L_gf$ 上 $x$ 位置處的值，我們需要到原特征圖 $f$ 上的 $g^{-1}x$ 位置上找值。
- 根據之前的定義， $L_g$ 還需要滿足： $L_{g} L_{h}=L_{g h}$ 。
如果變換 $g$ 表示的是圖像上的平移變換 $\in \mathbb{Z}^{2}$ ，那么 $g^{-1} x$ 就等于 $x ? t$ 。
如下圖所示，展示了 $p 4$ 群上的濾波器：
- $r$ 表示旋轉90度，總共有4種旋轉的結果，紅線表示了變換關系。
如下圖所示，展示了 $p 4 m$ 群上的濾波器：
- $r$ 依然表示旋轉90度，紅線表示旋轉變換關系。 $m$ 表示鏡像翻轉，用藍線表示。
定義特征圖的對合函數（involution）： $f?(g)=f(g?1)f^{*}(g)=f\left(g^{-1}\right)$ 。在后面會用到。

2.4、CNN上的等變性

首先對傳統CNN的等變性進行分析。
在CNN的每一層 $l$ 上，輸入是一些特征圖 $\mathbb{Z}^{2} \rightarrow \mathbb{R}^{K^{l}}$ ，然后使用 $K^{l+1}$ 個卷積核 $ψi:Z2→RKl\psi^{i} : \mathbb{Z}^{2} \rightarrow \mathbb{R}^{K^{l}}$ 對特征圖做卷積（convolve）或是相關（corelate）：
- 卷積：
  - $[f?ψi](x)=∑y∈Z2∑k=1Klfk(y)ψki(x?y)\left[f * \psi^{i}\right](x)=\sum_{y \in \mathbb{Z}^{2}} \sum_{k=1}^{K^{l}} f_{k}(y) \psi_{k}^{i}(x-y)$
- 相關：
  - $[f?ψi](x)=∑y∈Z2∑k=1Klfk(y)ψki(y?x)\left[f \star \psi^{i}\right](x)=\sum_{y \in \mathbb{Z}^{2}} \sum_{k=1}^{K^{l}} f_{k}(y) \psi_{k}^{i}(y-x)$
- 后續討論以相關為主，默認將兩種操作都稱作是卷積。
將 $\rightarrow y+t$ 做替換，忽略特征圖上最后求和的那一步，我們可以證明相關對平移具有等變性：
- $[[Ltf]?ψ](x)=∑yf(y?t)ψ(y?x)=∑yf(y)ψ(y+t?x)=∑yf(y)ψ(y?(x?t))=[Lt[f?ψ]](x)\begin{aligned}\left[\left[L_{t} f\right] \star \psi\right](x) &=\sum_{y} f(y-t) \psi(y-x) \\ &=\sum_{y} f(y) \psi(y+t-x) \\ &=\sum_{y} f(y) \psi(y-(x-t)) \\ &=\left[L_{t}[f \star \psi]\right](x) \end{aligned}$
于是我們可以說，“相關是平移群上的等變映射”；
- 原論文中的說法：correlation is an equivariant map for the translation group；或者說，correlation and translation commute。
以此類推，可以得到卷積也對平移具有等變性： $[Ltf]?ψ=Lt[f?ψ]\left[L_{t} f\right] * \psi=L_{t}[f * \psi]$ 。
盡管卷積對于平移具有等變性，但是卷積對于旋轉不具有等變性： $[[Lrf]?ψ](x)=Lr[f?[Lr?1ψ]](x)\left[\left[L_{r} f\right] \star \psi\right](x)=L_{r}\left[f \star\left[L_{r^{-1}} \psi\right]\right](x)$ 。

2.5、群等變網絡

群等變網絡（Group Equivariant Network）由三種層組成：群卷積、群池化和非線性單元。

2.5.1、群等變相關（G-Equivariant correlation）

對于2D圖片上來說，相關就是通過平移濾波器，然后不斷計算濾波器與特征圖的點乘。
- $\star \psi](g)=\sum_{y \in \mathbb{Z}^{2}} \sum_{k} f_{k}(y) \psi_{k}\left(g^{-1} y\right)$
- 輸入圖像是 $f$ ，濾波器是 $ψ\psi$ ，他們都是位于平面 $Z2\mathbb{Z}^2$ 上的函數，但是輸出的特征圖 $\star \psi$ 是離散群 $G$ 上的一個函數。平移群是這里的離散 $G$ 的一個子群。
將相關操作推廣到整個離散群 $G$ 上：
- $\star \psi](g)=\sum_{h \in G} \sum_{k} f_{k}(h) \psi_{k}\left(g^{-1} h\right)$
類似地，可以做替換 $\rightarrow u h$ ，等變性證明如下：
- $[[Luf]?ψ](g)=∑h∈G∑kfk(u?1h)ψ(g?1h)=∑h∈G∑kf(h)ψ(g?1uh)=∑h∈G∑kf(h)ψ((u?1g)?1h)=[Lu[f?ψ]](g)\begin{aligned}\left[\left[L_{u} f\right] \star \psi\right](g) &=\sum_{h \in G} \sum_{k} f_{k}\left(u^{-1} h\right) \psi\left(g^{-1} h\right) \\ &=\sum_{h \in G} \sum_{k} f(h) \psi\left(g^{-1} u h\right) \\ &=\sum_{h \in G} \sum_{k} f(h) \psi\left(\left(u^{-1} g\right)^{-1} h\right) \\ &=\left[L_{u}[f \star \psi]\right](g) \end{aligned}$
- 注：在第一層相關層上（文中稱為first-layer G-correlation）， $f$ 和 $ψ\psi$ 是平面 $Z2\mathbb{Z}^2$ 上的函數， $L_u f$ 也表示在 $Z2\mathbb{Z}^2$ 上的函數的變換。在之后的相關層上（文中稱為full G-correlation），這些函數都是在群 $G$ 上。
群 $G$ 是不可交換的，對于G-卷積核和G-相關來說同理。但是特征圖之間存在對合關系（involution）：
- $\star \psi=(\psi \star f)^{*}$
- 因為對合（involution）是可逆的，所以 $\star \psi$ 和 $ψ?f\psi \star f$ 中的信息內容是相同的。
我們通常還習慣給卷積層的特征圖加上一個偏差項。在G-卷積層上也可以這么做。
兩個具有在群 $G$ 上的等變性的特征圖之和依然具有等變性，因此G-conv層可以被用在很多經典的神經網絡結構中。

2.5.2、非線性單元

我們可以把特征圖看做群 $G$ 上的一個函數。在特征圖使用非線性單元 $ν:R→R\nu : \mathbb{R} \rightarrow \mathbb{R}$ ，相當于多個函數的組合。定義組合操作子如下：
- $Cνf(g)=[ν°f](g)=ν(f(g))C_{\nu} f(g)=[\nu \circ f](g)=\nu(f(g))$
- $CνC_{\nu}$ 是對函數 $f (g)$ 的post-composing。
因為前面提到的變換操作子 $L$ 是pre-composition，所以 $C$ 和 $L$ 可交換。
- $CνLhf=ν°[f°h?1]=[ν°f]°h?1=LhCνfC_{\nu} L_{h} f=\nu \circ\left[f \circ h^{-1}\right]=[\nu \circ f] \circ h^{-1}=L_{h} C_{\nu} f$
因此使用非線性單元（比如ReLU）處理后的特征圖依然可以繼承前一層的變換性質。

2.5.3、池化

為簡化分析，將池化分為兩步：不帶步長的池化和下采樣。
定義不考慮步長的最大池化操作為 $P$ ，其作用在特征圖 $\rightarrow \mathbb{R}$ 上：
- $f(g)=\max _{k \in g U} f(k)$
- $U=\{g u | u \in U\}$ 是池化域 $\subset G$ 上的 $g$ 變換。這里的池化域的簡單的理解就是鄰域。
- 在一個普通的卷積神經網絡中， $U$ 通常是一個 $\times 2$ 或 $\times 3$ 的方形區域， $g$ 是平移變換。
池化操作與 $L_h$ 是可交換的：
- $P L_{h}=L_{h} P$
池化的作用是減少特征圖中的方差，同時對于下采樣也是很有效的，換句話說，就是帶有步長的池化。
在G-CNN中，步長的概念就表示一個下采樣群 $\subset G$ 。因此下采樣后的特征圖只對 $H$ 等變，而不對 $G$ 等變。
在一個標準的卷積神經網絡架構中，步長為2的池化等價于先做池化然后下采樣。
如果是在之前說到的 $p 4$ 群上，子群 $H$ 包含所有4個旋轉方向還有平移2的倍數的像素，池化就相當于在這個子群 $H$ 上做下采樣。
要保證池化在群 $G$ 上的等變性，我們需要選擇一個合適的池化域 $U$ ，這個池化域要是 $G$ 的子群 $\subset G$ 。

2.6、具體實現

離散群上的G-convolution的計算無非就是算術上的索引和矩陣內積，所以它可以直接使用GPU來并行實現。
定義一個平面對稱群 $G$ 。
如果在這個群 $G$ 上的變換 $\in G$ 可以分解為一個平移 $\in \mathbb{Z}^{2}$ 和變換 $s$ ，就稱為可劃分的（論文中稱為split）。
- 對于群 $p 4$ ，變換 $g = t s$ 可以分解為平移 $t$ 和繞原點的旋轉 $s$ 。
- 對于群 $p 4 m$ ，變換則可分解為平移和旋轉還有翻轉。
定義G-correlation操作如下：
- $\star \psi(t s)=\sum_{h \in X} \sum_{k} f_{k}(h) L_{t}\left[L_{s} \psi_{k}(h)\right]$
- 在第一層上 $X=Z2X=\mathbb{Z}^{2}$ ，之后的層上 $X = G$ 。
實際計算時，要算群 $p 4$ 或者群 $p 4 m$ 上的相關 $\star \psi$ ，我們要先計算四個旋轉角度下（或是加上翻轉的8種情況下）濾波器的變換 $LsψL_{s} \psi$ 。因為相比于整幅圖像，對濾波器做變換的計算開銷更小。之后再在 $f$ 上做快速平面相關（卷積）即可。

2.6.1、濾波器變換

濾波器的維度為： $Kl×Kl?1×Sl?1×n×nK^{l} \times K^{l-1} \times S^{l-1} \times n \times n$ 。
- 其中 $K^l$ 是第 $l$ 層的通道數。
- $S^{l-1}$ 表示群 $G$ 上的變換種類對于。 $Z2\mathbb{Z}^2$ 、 $p 4$ 和 $p 4 m$ 群來說，分別是1、4、8。
- $n$ 是濾波器的空間分辨率，換句話說就是平移群上的變換種類數。
- 對于2D圖像來說， $S^1=1$ ；對于 $p 4$ 群來說， $S^l=4$ ；對于 $p 4 m$ 群來說， $S^l = 8$ 。
濾波器變換 $L_S$ 實際上相當于對整個 $Kl×Kl?1K^{l} \times K^{l-1}$ 的標量濾波器的輸入做了置換。
- 換句話說，因為群卷積是等變的，各個角度下的特征也是等變的。以旋轉為例，如果輸入就旋轉了90度，那么群卷積的輸出也都旋轉了90度，但是 $p 4$ 旋轉群上的旋轉是封閉的，旋轉(360+90)度的結果與旋轉90度相同，實際不同的旋轉就相當于讓對應的輸出特征的順序按照一定規則交換了一下。
如果對每個濾波器使用 $S^l$ 種變換，那么輸出 $F^{+}$ 就是： $Kl×Sl×Kl?1×Sl?1×n×nK^{l} \times S^{l} \times K^{l-1} \times S^{l-1} \times n \times n$ 。
論文中還給出了詳細的在編程上的實現描述，感興趣的可以參考論文。

2.6.2、平面卷積

G-convolution的第二部分就是使用之前計算好的擴展濾波器 $F^{+}$ 進行平面卷積計算。
主要是套用G-convolution的公式做矩陣點乘，與常規卷積一樣。
但是求和時有所不同，因為是定義在 $p 4$ 群和 $p 4 m$ 群上，所以還額外要在 $S^{l}$ 上進行求和。將 $F^{+}$ 的維度 $Kl×Sl×Kl?1×Sl?1×n×nK^{l} \times S^{l} \times K^{l-1} \times S^{l-1} \times n \times n$ reshape為 $SlKl×Sl?1Kl?1×n×nS^{l} K^{l} \times S^{l-1} K^{l-1} \times n \times n$ 。這一步操作就類似與經典的卷積神經網絡中輸入通道數為 $S^{l-1} K^{l-1}$ ，輸出通道數為 $S^{l} K^{l}$ 的情況。

2.7、實驗

3、參考資料

Group Equivariant Convolutional Networks

總結

以上是生活随笔為你收集整理的论文笔记：Group Equivariant Convolutional Networks的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文笔记：Spherical CNN
下一篇：论文笔记：PRIN: Pointwise

编程问答

论文笔记：Group Equivariant Convolutional Networks

Group Equivariant Convolutional Networks

1、四個問題

2、論文概述

2.1、簡介

2.2、結構化和等變特征表示

2.3、數學框架

2.3.1、對稱群

2.3.2、p4p4p4群

2.3.3、p4mp4mp4m群

2.3.4、群上的函數

2.4、CNN上的等變性

2.5、群等變網絡

2.5.1、群等變相關（G-Equivariant correlation）

2.5.2、非線性單元

2.5.3、池化

2.6、具體實現

2.6.1、濾波器變換

2.6.2、平面卷積

2.7、實驗

3、參考資料

總結

2.3.2、 $p 4$ 群

2.3.3、 $p 4 m$ 群