基本运算的意义奇思
20220331
bm25逆文檔頻率
20220326
兩條mysql服務(wù)器同步更新主鍵id,通過奇偶來解決(互斥的兩種選擇)
如果后面再加服務(wù)器(三種情況的時候就要加入中介媒介來處理了),可以提前先生成主鍵id放在隊(duì)列里,公用的
每次生成都在公共id集中來取
或者步長相隔很遠(yuǎn) 開始是1 一臺 offset 1億 一臺 offset兩億 一臺3億
或者 10001 1002 10003 offset都是3 步長3能容納沖突 但后期還是不太智能
下面兩種方式屬于改變其他的某種元素
20220314
總結(jié)大數(shù)據(jù)中提高效率的方法
bitmap:位圖索引 向量存儲 代價小
20211219
- 減去均數(shù)除去主觀整體影響 評分
- 除以對應(yīng)的季節(jié)指數(shù),除去季節(jié)影響
- 差分去掉趨勢影響
總體原則除去公共的或者多余的部分
離散序列的d 階差分就相當(dāng)于連續(xù)變址的d 階求導(dǎo)
20211211
方程組的解法
1.直接求解
2.通解加特解
3.迭代法
4.近似解
矩估計:就是利用樣本的統(tǒng)計特征來歸結(jié)總體的其他值比如利用均值,方差等來估計總體的相關(guān)系數(shù)等精度差作為
最小二乘法和極大似然估計的初始值
20211201
要比較二者的差異,同時屏蔽二者整體的或者說基數(shù)的不同,可以減去均值之后再比較
余弦相似度和皮爾遜相關(guān)系數(shù)的關(guān)系
歐式側(cè)重于絕對距離,余弦側(cè)重于相對差異 歐式歸一化之后呢?
20211125
TFIDF改進(jìn)
textrank也是關(guān)鍵字提取
20211029
用計算機(jī)模擬計算就是寫一個def函數(shù)
計算需求價格彈性系數(shù)的時候
如果事物本身存在持續(xù)增長的情況下
需要先考慮本身的增長
比如火車客運(yùn)量,但是藥物明顯不存在這種情況
要試圖得到某個因素對結(jié)果造成的影響,可以先把其他因素置為相同 比如求需求價格彈性 可以只考慮年度的數(shù)據(jù) 這樣就忽略了促銷,年度,節(jié)假日的影響
或者通過減的方式排除某個影響 推薦系統(tǒng)過濾
或者通過除以相同分母的方式,比如歸一化
單位價格變化率對應(yīng)的需求變化率
為什么不是直接的需求變化絕對量除以價格變化的絕對量
pi剛開始也是參數(shù),就像求梯度一樣
最后再代入具體的數(shù)值
20211027
權(quán)重的意義可以解釋為敏感度
比如
需求=權(quán)重*價格
權(quán)重為負(fù)值,價格越高,需求越小
20211016
反映市場狀態(tài)的指標(biāo) 零售價格指數(shù)和時點(diǎn)存銷比
基于貝葉斯網(wǎng)絡(luò)的卷煙市場狀態(tài)監(jiān)測的研究與應(yīng)用
論文
機(jī)器學(xué)習(xí)融入時間序列模型
把準(zhǔn)確率序列最后通過Arima來預(yù)測
20211003
層次softmax減少計算量
通過huffman樹把預(yù)測標(biāo)簽總數(shù)減少了 預(yù)測的是每個父節(jié)點(diǎn)而不再是根節(jié)點(diǎn)
單詞越多減少量越明顯
20210925
當(dāng)?shù)貌坏骄唧w的解的表達(dá)式的時候 用梯度下降或者泰勒二階展開來求解
梯度下降可能面臨的缺點(diǎn)
解決梯度下降的問題
adboost 整體就是利用前向分布算法實(shí)現(xiàn)的損失函數(shù)優(yōu)化
特征域
高一層抽象 多一層分組以此來區(qū)分不同的事務(wù)
20210924
看到這種形式就要想到是兩個矩陣相乘
xT不變表示 每次點(diǎn)積X都不變,y變化 xy1+xy2+x*y3
x和j沒有關(guān)系 所以可以直接拖出來
XT T表示X的組成以行向量表示
09 9.SVD++
視頻
矩陣分解隱向量和深度學(xué)習(xí)embedding其實(shí)可以看成是同一個東西
通過這種方式 引入其他物品相互間的影響因素
梯度下降最優(yōu)化使用的場景
1.當(dāng)公式直接計算的時候存在各種現(xiàn)實(shí)的限制條件的時候
比如矩陣稀疏,矩陣規(guī)模大,極值多,缺失值多的時候就可以考慮
用梯度下降來慢慢接近答案 就沒有了上面這些煩惱
減少每個人主觀的評判差異 各自每次的實(shí)際值減去其自身所有值的平均值只考察偏差
要?dú)w一化就是所有的情況求和做分母或者最大值做分母
20210825
20210514
統(tǒng)一兩種寫法
20210420
rear = (rear + 1) % maxSize;取模可以模擬以maxsize做循環(huán)操作
20210401
要考察企業(yè)成長性
根據(jù)已有的,已公開的信息統(tǒng)計各種指標(biāo)的曲線
然后再映射去套要預(yù)測的企業(yè)
20210315
計算信息增益時對采樣的Z2樣本的梯度數(shù)據(jù)乘以(1-n)/m(目的是不改變原數(shù)據(jù)的分布)
假設(shè)原來是10個
a 取 2個
剩下的取8個
也就是兩個集合數(shù)目加起來還是總數(shù) 不改變最后的訓(xùn)練例子總數(shù)
20210116
n的位置可以移動 可以作為 b-a除以n
也可以說是后面部分求均值
20201213
log 使值變大 比如 0.001,0.002 等 也是把相乘變成相加
負(fù)數(shù)加上底數(shù) 使其取值變到坐標(biāo)軸的上半部分 更容易觀看
perplexity
20201108
????????
根據(jù)概率采樣
20201014
https://haokan.baidu.com/v?vid=15284978659146216535&pd=bjh&fr=bjhauthor&type=video
第一行的1 表示 0結(jié)點(diǎn)到1結(jié)點(diǎn)的距離
第三行 的 3 表示 2號結(jié)點(diǎn)到0號結(jié)點(diǎn)的距離
第三行的 4 的位子 表示 2號結(jié)點(diǎn)到0號結(jié)點(diǎn)的位置 這里已經(jīng)被覆蓋過一次
20200927
除以總數(shù)肯定就是平均了
20200925
除以 歸一化的作用、
歧義消除
log2 化成二進(jìn)制
20200923
同號取交和異號取強(qiáng)
第二個式子 分母 相當(dāng)于 0-P(H)
兩個式子都是表示最大范圍 也就是把整個值限定在
(0,1)之間
可信度
20200902
估計算法效率
離散數(shù)學(xué)
20200809
NP難問題 通過近似求解
20200728
Hyman分別測試法
https://blog.csdn.net/weixin_42194284/article/details/93898281
捕獲再捕獲抽樣是用于生態(tài)學(xué)以及估計野生動物總體數(shù)量的一種抽樣方法。其基本方法是從總體中抽取一個樣本,做上記號以后放回總體,使之與原總體的單位均勻地混合,經(jīng)過適當(dāng)?shù)臅r間,再從中抽取一個樣本。根據(jù)已做記號與未做記號的比率來推斷總體的數(shù)量 [1] 。
估計
抽樣出的真實(shí)故障除以總的真實(shí)故障總數(shù) 等于 抽樣出的植入故障數(shù)除以植入的故障總數(shù)
溫度放大信息,親自動手算一下
20200607
今天早上想到兩種情形,不能依靠相鄰詞的概率排除歧義義項(xiàng)。第一種是“我花了8000元買了個蘋果”,第二種是“小李很喜歡他的蘋果”。這兩種都比較難確定“蘋果”是水果還是手機(jī)?特別是第二種,需要依靠上下文前面的“小李擁有兩個手機(jī)”來判斷,兩句話的距離可能比較遠(yuǎn),而且要在小李的擁有物之內(nèi),把蘋果與手機(jī)關(guān)聯(lián)起來,人雖然容易做到,電腦想依靠數(shù)學(xué)或算法來做可真是頭痛。還好靈感發(fā)現(xiàn),我五分鐘之后就想到了辦法。
第一種情形,只要寫兩個語義正則表達(dá)式,“Q:* 蘋果 * num 元 * A:num:TP@TOTOAL”,“Q:* num 元 * 蘋果 * A:num:TP@TOTOAL”,再用這個模板上語料庫搜到八句num數(shù)值最接近的句子,再計算所得到的八個整句(TP@TOTOAL)里面所有的名詞動詞與水果和手機(jī)的關(guān)聯(lián)度,可以排除歧義義項(xiàng)了。
第二種情形更復(fù)雜一點(diǎn),就用以下語句訓(xùn)練出一個語義模板:
“Q:小明擁有兩個手機(jī) A:小明 手機(jī)”,
“Q:小明買了一個手機(jī) A:小明 手機(jī)”,
“Q:*送給小明一個手機(jī) A:小明 手機(jī)”,
“Q:小明手上有兩個手機(jī) A:小明 手機(jī)”,
“Q:小明的手機(jī) A:小明 手機(jī)”,
“Q:小朱擁有兩個玩具 A:小朱 玩具”,
“Q:小朱買了一個玩具 A:小朱 玩具”,
“Q:*送給小朱一個玩具 A:小朱 玩具”,
“Q:小朱手上有兩個玩具 A:小朱 玩具”,
“Q:小朱的玩具 A:小朱 玩具”,
有了這個語義模板以后,遇到可以確定擁有物的語句,就可以輸出所有者與擁有物這兩個詞。用它來處理上下文,就能找到小李的所有擁有物,計算這些擁有物與水果和手機(jī)的關(guān)聯(lián)度,可以排除歧義義項(xiàng)了。
詞嵌入算關(guān)聯(lián)度?
@勁風(fēng)的味道 內(nèi)部編輯了一個語義庫,部分借鑒了hownet
【活躍】旭日東升 2020/6/7 14:39:20
關(guān)聯(lián)度,反義度是我獨(dú)有的,hownet基本沒有
14:43:43
【潛水】勁風(fēng)的味道 2020/6/7 14:43:43
能一句話概括一下idea嗎
抽煙,香煙,尼古丁都是關(guān)聯(lián)詞,一般是相鄰句子里共現(xiàn)多的,或者是詞的一部分例如抽煙與煙,或者有從屬關(guān)系的。
知識 信息 數(shù)據(jù)
解釋過程
20200510
How do you compare two probability distributions? We simply subtract one from the other. For more details, look atcross-entropy and Kullback–Leibler divergence.
簡單的考察分布
公式構(gòu)造
思路
最簡單的加減乘除著手
F(x)=(1-x)a+bx
當(dāng)x等于1的時候要消去變量a 就讓x減去1 這個值再乘以 a
當(dāng)x等于0的時候要消去變量b
公式構(gòu)造
乘以零 消去
減法 用于抵消某東西的影響
懲罰
softmax 可以是值大的更大,小的更小
bert 各層結(jié)構(gòu)的作用
bert
bert masked
動態(tài)排序
動態(tài)排序 中間兩個優(yōu)先 邊上兩個滯后
八格游戲
通用規(guī)則和特殊規(guī)則相結(jié)合
需求發(fā)現(xiàn):可以參看北京大學(xué)的軟件工程
總結(jié)
- 上一篇: “Attention is All Yo
- 下一篇: 深度学习各种框架