UA MATH567 高维统计IV Lipschitz组合8 随机投影与John-Lindenstrauss引理
UA MATH567 高維統(tǒng)計IV Lipschitz組合8 隨機投影與John-Lindenstrauss引理
- John-Lindenstrauss引理
- Random Projection
John-Lindenstrauss引理
這一講我們介紹一個Lipschitz函數(shù)法處理隨機向量的技術的應用。假設在一個機器學習問題中,我們有NNN個樣本,每個樣本有nnn個feature,但是nnn非常大,直接用這么多feature訓練模型不但浪費算力而且影響模型精度,所以我們想做一個投影PPP,把這組nnn維的feature投影到一個mmm維的子空間,我們希望投影前后任意兩個樣本點的差別不會被放大或者縮小,用數(shù)學來描述就是假設x,yx,yx,y這兩個nnn維向量分別表示一個樣本,則給定一個很小的正數(shù)?\epsilon?,使得
(1??)∥x?y∥2≤∥Px?Py∥2≤(1+?)∥x?y∥2(1-\epsilon)\left\| x-y \right\|_2 \le\left\| Px-Py \right\|_2 \le (1+\epsilon)\left\| x-y \right\|_2(1??)∥x?y∥2?≤∥Px?Py∥2?≤(1+?)∥x?y∥2?
其中Px,Py∈RmPx,Py \in \mathbb{R}^mPx,Py∈Rm,站在理論機器學習研究者的角度,我們比較關心的一個問題是最小能把feature的維數(shù)壓縮到多少?J-L引理認為基于Haar測度的隨機投影下最小的維數(shù)是O(ln?N)O(\ln N)O(lnN)。
John-Lindenstrauss引理
用X\mathcal{X}X表示NNN個樣本,X?Rn\mathcal{X} \subset \mathbb{R}^nX?Rn,??>0\forall \epsilon>0??>0,?C>0\exists C>0?C>0, ?m≥(C/?2)log?N\forall m \ge (C/\epsilon^2) \log N?m≥(C/?2)logN,如果E~Unif(Gn,m)E \sim Unif(G_{n,m})E~Unif(Gn,m?),存在random projection
Q=nmPEQ = \sqrt{\frac{n}{m}}P_EQ=mn??PE?
使得下面的事件概率不小于1?2e?c?2m1-2e^{-c\epsilon^2m}1?2e?c?2m:
(1??)∥x?y∥2≤∥Qx?Qy∥2≤(1+?)∥x?y∥2(1-\epsilon)\left\| x-y \right\|_2 \le\left\| Qx-Qy \right\|_2 \le (1+\epsilon)\left\| x-y \right\|_2(1??)∥x?y∥2?≤∥Qx?Qy∥2?≤(1+?)∥x?y∥2?
也就是approximate isometry成立。關于Grassman流形上的均勻分布Unif(Gn,m)Unif(G_{n,m})Unif(Gn,m?)可以參考上一講。
Random Projection
在分析J-L引理前,我們先了解一下隨機投影。
引理:隨機投影的性質
假設PPP是從Rn\mathbb{R}^nRn到EEE上的投影,其中E~Unif(Gn,m)E \sim Unif(G_{n,m})E~Unif(Gn,m?),則?z∈R,?>0\forall z \in \mathbb{R},\epsilon>0?z∈R,?>0,
評注
基于這個引理,要說明J-L引理是非常容易的。定義X?X={x?y:x,y∈X}\mathcal{X}-\mathcal{X} = \{x-y:x,y \in \mathcal{X}\}X?X={x?y:x,y∈X}
?z∈X?X\forall z \in \mathcal{X}-\mathcal{X}?z∈X?X,with probability at least 1?2e?c?2m1-2e^{-c\epsilon^2m}1?2e?c?2m, (1??)mn∥z∥2≤∥Pz∥2≤mn(1+?)∥z∥2(1-\epsilon)\sqrt{\frac{m}{n}} \left\| z\right\|_2 \le\left\| Pz \right\|_2 \le \sqrt{\frac{m}{n}} (1+\epsilon)\left\|z \right\|_2 (1??)nm??∥z∥2?≤∥Pz∥2?≤nm??(1+?)∥z∥2?
定義Q=nmPQ=\sqrt{\frac{n}{m}}PQ=mn??P,則
(1??)∥z∥2≤∥Qz∥2≤(1+?)∥z∥2(1-\epsilon) \left\| z\right\|_2 \le\left\| Qz \right\|_2 \le (1+\epsilon)\left\|z \right\|_2 (1??)∥z∥2?≤∥Qz∥2?≤(1+?)∥z∥2?
要對所有的zzz都成立,則對應的概率至少為
1?2∣X?X∣e?c?2m≥1?2N2e?c?2m=1?2eln?N2?c?2m1-2|\mathcal{X}-\mathcal{X}|e^{-c\epsilon^2m} \ge 1-2N^2e^{-c\epsilon^2m} = 1-2e^{\ln N^2-c\epsilon^2m}1?2∣X?X∣e?c?2m≥1?2N2e?c?2m=1?2elnN2?c?2m
如果m≥(C/?2)log?Nm \ge (C/\epsilon^2) \log Nm≥(C/?2)logN,則
1?2eln?N2?c?2m≥1?2e(2/C?c)?2m1-2e^{\ln N^2-c\epsilon^2m} \ge 1-2e^{(2/C-c)\epsilon^2m}1?2elnN2?c?2m≥1?2e(2/C?c)?2m
換一個常數(shù)就是J-L的形式了。
證明
不妨設∥z∥2=1\left\|z \right\|_2=1∥z∥2?=1,我們要討論的是zzz為確定的向量,PPP是一個隨機投影(with Haar measure),第一條性質要解決的是期望,它等價于把zzz當作Sn?1S^{n-1}Sn?1上的均勻分布,把PPP當成一個確定的投影,甚至為了簡單起見,假設PPP就是一個coordinate map,也就是除了前mmm個坐標外,其他坐標都是0,則E∥Pz∥22=E∑i=1mZi2=mnE \left\| Pz \right\|_2^2 = E \sum_{i=1}^m Z_i^2 = \frac{m}{n}E∥Pz∥22?=Ei=1∑m?Zi2?=nm?
定義f(x)=∥Px∥2f(x) = \left\|Px\right\|_2f(x)=∥Px∥2?,這是一個Lipschitz范數(shù)為1的Lipschitz函數(shù),于是
∣f(x)?f(y)∣∥x?y∥2=∣∥Px∥2?∥Py∥2∣∥x?y∥2≤∥P(x?y)∥2∥x?y∥2≤1\frac{|f(x)-f(y)|}{\left\| x-y\right\|_2} = \frac{|\left\|Px\right\|_2-\left\|Py\right\|_2|}{\left\| x-y\right\|_2} \le \frac{\left\| P(x-y) \right\|_2}{\left\| x-y\right\|_2} \le 1∥x?y∥2?∣f(x)?f(y)∣?=∥x?y∥2?∣∥Px∥2??∥Py∥2?∣?≤∥x?y∥2?∥P(x?y)∥2??≤1
因為球面分布的Lipschitz函數(shù)是亞高斯的,于是
P(∣∥PX∥2?E∥PX∥2∣≥t)≤2e?cnt2P(|\left\|PX\right\|_2-E\left\|PX\right\|_2| \ge t) \le 2e^{-cnt^2}P(∣∥PX∥2??E∥PX∥2?∣≥t)≤2e?cnt2
這里指數(shù)上有個nnn是因為這個分布是Sn?1S^{n-1}Sn?1,相比nSn?1\sqrt{n}S^{n-1}n?Sn?1少了一個scalar,所以在指數(shù)上添一個(n)2(\sqrt{n})^2(n?)2,另外就是在證明這個結果的時候我們用的是f(X)?Mf(X)-Mf(X)?M是亞高斯的,然后根據(jù)centering技巧得到f(X)?Ef(X)f(X)-Ef(X)f(X)?Ef(X),這里可以用另一個centering技巧,即f(X)?Ef(X)2f(X)-\sqrt{Ef(X)^2}f(X)?Ef(X)2?也是亞高斯的(事實上可以用任意Lp范數(shù)),于是
P(∣∥PX∥2?E∥PX∥22∣≥t)≤2e?cnt2P(|\left\|PX\right\|_2-\sqrt{E\left\|PX\right\|_2^2}| \ge t) \le 2e^{-cnt^2}P(∣∥PX∥2??E∥PX∥22??∣≥t)≤2e?cnt2
取t=?m/nt=\epsilon\sqrt{m/n}t=?m/n?,引理得證。
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计IV Lipschitz组合8 随机投影与John-Lindenstrauss引理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH567 高维统计IV Li
- 下一篇: UA MATH567 高维统计IV Li