机器学习大实贱
2019獨角獸企業重金招聘Python工程師標準>>>
????????先來段開場白熱熱身,自打出道以來一直有做工作筆記的習慣,前幾天突然腦抽把一篇扯蛋文bia到了空間里,結果好幾個小哥給打賞,特別是F哥打不上賞還抓屏給我看,誠意特別濃烈,執意砸鍋賣鐵也要投身到共享經濟的創業大潮中去,他們村長還托他帶話過來,說村口廁所沒紙了,合著怪我嘍?!
????????前段時間閑P技術預研機器學習,有點意思真是呵呵噠了,今兒個談談感受哈,沒啥營養比較水,技術控看到這里直接backspace吧。谷歌早好些年就整了個啥玩意,貌似通過三層神經網絡(輸入、隱藏與輸出)對海量語料建模,將自然語言聚類呀,找同(近)義詞呀以及進行詞性分析啥的,計算詞語之間的相似度方面巨那個。一堆操作配置差不多了讓電腦自個撒開歡可勁兒跑,自己叫杯扎啤點盤花毛啃著雞爪子瞅它干活,真沒比這更酸爽的。矮油,QQ桌面又彈新消息了,《北京離婚一年內房貸按二套房執行》,我去~這年頭離婚都要趕早了,汗~~~,不好意思跑題兒了。
????????要說人谷歌確實牛X咱不服不行,能琢磨出這套算法真心不一般,咱這八般腦子估計以后也就徹底告別對這種高深算法的探究了,人家造出來咱會使就行了唄,這點出息咱還是有的。大概其估么差不離兒也就是把一個詞映射到N個維度實數向量上去,計算它的余弦扣賽值歐氏距離之類的,判斷語義的相似度??圪愂裁垂?#xff1f;不懂找大侄子補補三角吧。聽說詞頻用huffman編碼(咋不用奧特曼呢),而且詞頻越高被激活的隱藏層就越少,從而降低計算的復雜度,不懂,反正挺奧妙洗衣粉的。據說這玩意大受歡迎的原因就是比較高效,Mikolov 在論文[2]中指出,一個優化的單機版本一天可訓練上千億詞,為啥哥跑了6個小時也就夠個零頭呢,凡是找不到原因賴人品準沒錯。
????????這東西牛牪犇掰在哪呢,哥覺得吧就是把自然語言詞語這個基本單位的概率分布以模型的方式數學公式化(要不怎么說數學老師厲害呢),照理能統計其實已經蠻不錯了,竟然還能預測,最缺德的是預測結果還真像那么回事,這跟誰說理去呀。行吧,說說咋整的吧,小哥我目前做B2B(binbin to boss,binbin是偶小名)方向的業務,2B行業的語料特點就是技術精湛腳法細膩配合默契意識上佳(祝賀中國隊1:0戰勝韓國隊)。從中抽取了107561偏文章,篇篇精華共計296兆,要說這點數據量真有點對不起于大寶,好在這也是三個多月的積淀啦。
????????首先準備食材(https://git.oschina.net/gonglibin/codes/rnplksfcy07ezivm3q4th53),再把土豆茄子柿子椒切塊,姜絲蒜末蔥花備用,濃油赤醬使勁翻炒,最后出鍋裝盤一氣呵成。
????????歪果仁用叉子(https://git.oschina.net/gonglibin/codes/0yqsi3w2cjedg6n71ahuv13)。
????????中果仁用筷子(https://git.oschina.net/gonglibin/codes/ipjc4ngl9yv3x7kr6zb1012)。
????????印度阿三手抓飯(原諒小哥不能提供php版)。
????????說了這么多味道咋樣呀?(https://my.oschina.net/u/1376494/blog/856654)絕對雅蜜雅蜜亞克西。
????????百度“厲力文武”(四個字噢),或者https://git.oschina.net/gonglibin,全是干貨,拿走不謝,我們的口號是:勵斌出品,必是精品。
轉載于:https://my.oschina.net/gonglibin/blog/866265
總結
- 上一篇: 方鑫装饰风水
- 下一篇: 关闭linux防火墙及selinux的关