UA MATH567 高维统计III 随机矩阵7 亚高斯矩阵的应用:Stochastic Block Model与社区发现 问题描述
UA MATH567 高維統計III 隨機矩陣7 亞高斯矩陣的應用:Stochastic Block Model與社區發現
我們來介紹亞高斯矩陣的一個應用:評估社區發現算法的效率。Community detection in networks是一個比較重要的非監督學習問題,這一講我們用Stochastic Block Model (SBM)來描述一個網絡:
假設這個網絡有nnn個節點,網絡中有兩個社區,它們的規模相當,各擁有n/2n/2n/2個節點,記這兩個社區為C1,C2C_1,C_2C1?,C2?,我們用G(n,p,q)G(n,p,q)G(n,p,q)表示這個隨機網絡,其中ppp表示某條邊連接的兩個點屬于同一個社區的概率,qqq表示某條邊連接的兩個點屬于不同社區的概率,假設p>qp>qp>q,用AAA表示這個網絡的伴隨矩陣,顯然它是一個隨機矩陣,
P(Aij=1∣i,j∈C1ori,j∈C2)=pP(Aij=1∣i∈C1,j∈C2ori∈C2,j∈C1)=qP(A_{ij}=1|i,j \in C_1\ or\ i,j \in C_2)=p \\ P(A_{ij}=1|i \in C_1,j \in C_2\ or\ i \in C_2,j \in C_1)=qP(Aij?=1∣i,j∈C1??or?i,j∈C2?)=pP(Aij?=1∣i∈C1?,j∈C2??or?i∈C2?,j∈C1?)=q
Community detection in networks試圖回答的問題是尋找一種分割:
C1?C2={1,2,?,n}C_1 \sqcup C_2 = \{1,2,\cdots,n\}C1??C2?={1,2,?,n}
使得C1,C2C_1,C_2C1?,C2?分別包含兩個不同社區中的節點。
簡單分析
我們可以將AAA分解為它的期望與殘差矩陣:
A=E[A]+RA = E[A]+RA=E[A]+R
其中
E[A]=[p?p?C1q?q?C2p?pq?qq?qp?pq?qp?p]E[A] = \left[ \begin{matrix} \overbrace{p \cdots p}^{C_1} & \overbrace{q \cdots q}^{C_2 } \\ p \cdots p & q \cdots q \\q \cdots q & p \cdots p\\ q \cdots q & p \cdots p \end{matrix} \right]E[A]=??????p?p?C1??p?pq?qq?q?q?q?C2??q?qp?pp?p???????
不妨假設nnn是一個偶數,顯然rankE[A]=2rank E[A]=2rankE[A]=2,它有兩個特征值與對應的特征向量:λ1=n(p+q)2,λ2=n(p?q)2u1=1n[11?11],u2=1n[11??1?1]\lambda_1=\frac{n(p+q)}{2},\lambda_2 = \frac{n(p-q)}{2} \\ u_1 = \frac{1}{\sqrt{n}} \left[ \begin{matrix} 1 \\ 1 \\ \cdots \\ 1 \\ 1 \end{matrix} \right],u_2 = \frac{1}{\sqrt{n}} \left[ \begin{matrix} 1 \\ 1 \\ \cdots \\ -1 \\ -1 \end{matrix} \right]λ1?=2n(p+q)?,λ2?=2n(p?q)?u1?=n?1????????11?11????????,u2?=n?1????????11??1?1????????
其中u2u_2u2?有n/2n/2n/2個111,n/2n/2n/2個?1-1?1,u2u_2u2?是一個非常重要的值,對于一般情況,如果一個隨機網絡中有兩個社區,那么它的期望的u2u_2u2?的符號可以指示節點的社區。于是Community detection in networks的目標是給定一個某個隨機矩陣的樣本數據集,要還原隨機矩陣的期望的特征向量。
在一般情況下,我們無法算出E[A]E[A]E[A],但我們可以對AAA做類似的分解:
A=D+RA = D+RA=D+R
其中DDD表示確定性的部分,RRR代表隨機性,假設RRR是亞高斯矩陣,則
∥D∥=λ1~nP(∥R∥≤CK(n+t))≥1?4e?t2\left\| D\right\| = \lambda_1 \sim n \\ P(\left\| R \right\| \le CK(\sqrt{n}+t)) \ge 1-4e^{-t^2}∥D∥=λ1?~nP(∥R∥≤CK(n?+t))≥1?4e?t2
這說明signal DDD比噪聲RRR更強得多,比如取t=nt=\sqrt{n}t=n?,則
P(∥R∥≤2CKn)≥1?4e?nP(\left\| R \right\| \le 2CK\sqrt{n}) \ge 1-4e^{-n}P(∥R∥≤2CKn?)≥1?4e?n
顯然∥D∥\left\| D\right\|∥D∥的階比∥R∥\left\| R \right\|∥R∥大,接下來我們要做的分析是這個隨機噪聲會對社區發現的結果造成怎樣的影響。
攝動方法(perturbation method)
研究一個小噪聲矩陣對確定性矩陣的影響,我們可以使用攝動方法,下面先介紹一些需要的結論:
Weyl不等式 對于任意兩個矩陣S,TS,TS,T
max?i∣λi(S)?λi(T)∣≤∥S?T∥\max_i|\lambda_i(S)-\lambda_i(T)| \le \left\| S-T \right\|imax?∣λi?(S)?λi?(T)∣≤∥S?T∥
證明
?x∈Sn?1\forall x \in S^{n-1}?x∈Sn?1,根據三角不等式,
∥Sx∥2≤∥Tx∥2+∥(S?T)x∥2≤∥Tx∥2+∥S?T∥\left\| Sx \right\|_2 \le \left\| Tx \right\|_2 + \left\| (S-T)x \right\|_2 \le \left\| Tx \right\|_2 + \left\| S-T \right\|∥Sx∥2?≤∥Tx∥2?+∥(S?T)x∥2?≤∥Tx∥2?+∥S?T∥
根據Courant-Fischer minimax定理
λi(S)=max?dimE=imin?x∈S(E)∥Sx∥2≤max?dimE=imin?x∈S(E)∥Tx∥2+∥S?T∥≤λi(T)+∥S?T∥?λi(S)?λi(T)≤∥S?T∥\lambda_i(S) = \max_{dim E = i}\min_{x \in S(E)}\left\| Sx \right\|_2 \\ \le \max_{dim E = i}\min_{x \in S(E)}\left\| Tx \right\|_2 + \left\| S-T \right\| \le \lambda_i(T)+\left\| S-T \right\| \\ \Rightarrow \lambda_i(S) -\lambda_i(T) \le \left\| S-T \right\|λi?(S)=dimE=imax?x∈S(E)min?∥Sx∥2?≤dimE=imax?x∈S(E)min?∥Tx∥2?+∥S?T∥≤λi?(T)+∥S?T∥?λi?(S)?λi?(T)≤∥S?T∥
類似地,
λi(T)?λi(S)≤∥S?T∥\lambda_i(T) -\lambda_i(S) \le \left\| S-T \right\|λi?(T)?λi?(S)≤∥S?T∥
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计III 随机矩阵7 亚高斯矩阵的应用:Stochastic Block Model与社区发现 问题描述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH567 高维统计III 随
- 下一篇: UA MATH567 高维统计III 随