python计算余弦距离_在Python中计算余弦距离的优化方法
如果可以使用SciPy,可以使用spatial.distance中的余弦值:
如果您不能使用SciPy,您可以嘗試通過重寫Python來獲得一個小的加速(編輯:但是沒有像我以前想像的那樣工作,見下文).
from itertools import izip
from math import sqrt
def cosine_distance(a, b):
if len(a) != len(b):
raise ValueError, "a and b must be same length"
numerator = sum(tup[0] * tup[1] for tup in izip(a,b))
denoma = sum(avalue ** 2 for avalue in a)
denomb = sum(bvalue ** 2 for bvalue in b)
result = 1 - numerator / (sqrt(denoma)*sqrt(denomb))
return result
當a和b的長度不匹配時,最好引發異常.
通過在sum()調用中使用生成器表達式,您可以通過Python中的C代碼完成大部分工作來計算您的值.這應該比使用for循環更快.
我沒有計時,所以我不能猜到它可能會更快.但是SciPy代碼幾乎肯定是用C或C編寫的,它應該是你能得到的一樣快.
如果你在Python中做生物信息學,那么你真的應該使用SciPy.
編輯:Darius Bacon定時我的代碼,發現它慢.所以我定時我的代碼,是的,這是比較慢的.所有的教訓:當你想加快速度時,不要猜測,測量.
為什么我試圖在Python的C內部部署更多的工作,我感到很困惑.我嘗試了長度為1000的列表,它仍然較慢.
我無法再花更多的時間嘗試巧妙地闖入Python.如果你需要更多的速度,我建議你嘗試SciPy.
編輯:我只是手工測試,沒有時間.我發現,對于a和b,舊的代碼更快;對于長a和b,新代碼更快;在這兩種情況下,差異不大. (我現在想知道我是否可以信任我的Windows計算機上的時間;我想在Linux上再次嘗試這個測試.)我不會改變工作代碼來試圖讓它更快.還有一次我敦促你嘗試SciPy. 🙂
總結
以上是生活随笔為你收集整理的python计算余弦距离_在Python中计算余弦距离的优化方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何在Ubuntu 18.04上安装Py
- 下一篇: 金邦推出 IceCap Pro M.2