大数据,why python
ps,?2015-12-4?20:47:46 http://www.open-open.com/news/view/fbffc4
《機(jī)器學(xué)習(xí)編程語(yǔ)言之爭(zhēng),Python奪魁》,又是一只黑天鵝
-------- 在《zwPython 3.0 初步規(guī)劃》blog中,我們極大地強(qiáng)化了大數(shù)據(jù)功能,并作為首個(gè)All-in-one大數(shù)據(jù)分析平臺(tái)。參見(jiàn):http://blog.sina.com.cn/s/blog_7100d4220102vlpa.html
zwPython 3.0目標(biāo):目前最強(qiáng)的集成式Python開(kāi)發(fā)平臺(tái),大數(shù)據(jù)分析平臺(tái),沒(méi)有之一:
- ?比pythonXY更加強(qiáng)大,內(nèi)置全中文用戶(hù)手冊(cè);
- ?蘋(píng)果“開(kāi)箱即用”模式,綠色軟件,解壓即可,零配置。
- ?首個(gè)All-in-one大數(shù)據(jù)分析平臺(tái):內(nèi)置pandas、Scala、R語(yǔ)言、Q語(yǔ)言、Quant、matlab、hadoop、spark模塊庫(kù)和API接口支持。(僅限V3.0版本)
- ?超強(qiáng)功能:圖像處理、AI人工智能、機(jī)器學(xué)習(xí)、openCV人像識(shí)別、gpu、openCL并行超算開(kāi)發(fā)、pygame游戲設(shè)計(jì)......
為什么是python,而不是r語(yǔ)言、Julia、matlab、Scala、Hadoop、Spark,等目前熱門(mén)的解決方案。 這個(gè),主要是因?yàn)閜ython發(fā)展太快,太猛,尤其是在AI人工智能、機(jī)器學(xué)習(xí)領(lǐng)域,已經(jīng)超越lisp,成為行業(yè)標(biāo)準(zhǔn)。 而國(guó)內(nèi),因?yàn)橹杏⒄Z(yǔ)言、區(qū)域分隔等種種原因,通常要落后歐美2-3年。 像大數(shù)據(jù)架構(gòu),目前歐美IT行業(yè):“強(qiáng)烈推崇Spark技術(shù),宣稱(chēng)Spark是大數(shù)據(jù)的未來(lái),同時(shí)宣布了Hadoop的死刑” 無(wú)他,因?yàn)镾park比Hadoop快一百倍。 而國(guó)內(nèi),今天百度了一下大數(shù)據(jù)人才需求,90%還是:Hadoop
大數(shù)據(jù)的核心是數(shù)據(jù)分析,數(shù)據(jù)分析的核心是模式匹配、機(jī)器學(xué)習(xí)方面的算法模型。 簡(jiǎn)單但說(shuō),就是一個(gè)類(lèi)似字符串匹配的算法,不過(guò)這個(gè)字符串是一個(gè)超長(zhǎng)的字符串,可能超過(guò)1000T字節(jié)。
算法、模型,向來(lái)是AI人工智能理論方面的范疇,這個(gè)類(lèi)似于量子理論物理學(xué),和理論天文學(xué)。 目前人工智能尚處于0.1版本階段,大體上相當(dāng)于哥白尼以前的天文學(xué)“地球中心說(shuō)”、和量子物理以前的經(jīng)典物理學(xué)階段。 因此,大數(shù)據(jù)、人工智能,基本上,就和理論物理學(xué)差不多,AI的算法模型,99%都是靠理論推測(cè),說(shuō)白點(diǎn),基本上靠“蒙” (參見(jiàn)《人工智能永遠(yuǎn)差500年》http://blog.sina.com.cn/s/blog_7100d4220102vmlm.html) 這里“蒙”,并非貶義詞,是指,大部分相關(guān)的理論,很多都是經(jīng)驗(yàn)參數(shù)、經(jīng)驗(yàn)理論,既然是經(jīng)驗(yàn),就有可能成功,更多的可能是失敗,特別是推而廣之的時(shí)候。 (參見(jiàn)《國(guó)內(nèi)首個(gè)大數(shù)據(jù)網(wǎng)絡(luò)推廣實(shí)戰(zhàn)案例》http://blog.sina.com.cn/s/blog_7100d4220102vmlm.html)
我說(shuō)“蒙”大家可能不服氣,這個(gè)卻是老老實(shí)實(shí),來(lái)自一線的實(shí)戰(zhàn)經(jīng)驗(yàn),慶幸的是,國(guó)外的頂級(jí)AI學(xué)者的觀點(diǎn)也差不多: “對(duì)于(大數(shù)據(jù)、人工智能)這個(gè)詞,我覺(jué)得最近社交網(wǎng)絡(luò)上比較流行的那個(gè)笑話非常貼切,把大數(shù)據(jù)比作青少年性行為:每個(gè)人都在談?wù)撍?#xff0c;沒(méi)人知道到底怎么做,每個(gè)人都以為其他人知道怎么做,所以每個(gè)人都聲稱(chēng)自己也在做、”(參見(jiàn)附錄)
當(dāng)然,這個(gè)0.1階段,也已經(jīng)能夠解決N多實(shí)際問(wèn)題了,例如目前的人臉識(shí)別、車(chē)牌識(shí)別、客戶(hù)行為模式分析、網(wǎng)絡(luò)廣告點(diǎn)擊分析、關(guān)聯(lián)商品推薦等算法都比較成熟。
我談大數(shù)據(jù),特別是黑天鵝算法,更加強(qiáng)調(diào)我們提出的“小數(shù)據(jù)理論”,原因有以下兩個(gè): 首先,簡(jiǎn)單來(lái)說(shuō),國(guó)內(nèi)除了進(jìn)入“國(guó)際500強(qiáng)”的企業(yè),例如阿里、百度、四大銀行、移動(dòng)等巨無(wú)霸企業(yè)。 99%的企業(yè),基本上并不需要大數(shù)據(jù),這些企業(yè)所謂的大數(shù)據(jù),其實(shí)只是最簡(jiǎn)單的數(shù)據(jù)庫(kù)、數(shù)據(jù)分析。 簡(jiǎn)單做個(gè)大數(shù)據(jù)的量化門(mén)檻標(biāo)準(zhǔn),可以分為以下兩條: 1、企業(yè)的活躍用戶(hù)規(guī)模超過(guò)一個(gè)億。 2、每天的活躍用戶(hù)更新數(shù)據(jù)的數(shù)據(jù)量,超過(guò)數(shù)據(jù)總量的1%,換句話說(shuō),每天有過(guò)百萬(wàn)的活躍用戶(hù)數(shù)據(jù)更新。 如果符合以上兩條,可以導(dǎo)入真正的大數(shù)據(jù)平臺(tái):hadoop、spark,其他的,用pandas、R語(yǔ)言、matlab,或者其他傳統(tǒng)數(shù)據(jù)庫(kù),可能效果更佳好。 例如淘寶、阿里的用戶(hù)就完全符合以上兩條,是典型的大數(shù)據(jù)企業(yè)。 而中國(guó)民政部門(mén),負(fù)責(zé)人口統(tǒng)計(jì)管理的信息中心,每個(gè)人的記錄就那么幾十條記錄,例如:出生日期、籍貫、性別等,基本都是關(guān)系數(shù)據(jù)庫(kù)表格可以高效處理的,即使數(shù)據(jù)庫(kù)規(guī)模,超過(guò)十億人,也無(wú)需采用什么大數(shù)據(jù)系統(tǒng),一臺(tái)i7的的筆記本,基本上就可以搞掂。
當(dāng)然,這里的一億用戶(hù)、1%,日過(guò)百萬(wàn)活躍用戶(hù),也都是筆者根據(jù)一線實(shí)戰(zhàn),總結(jié)的經(jīng)驗(yàn)參數(shù)。 這些參數(shù),不一定完全正確,但還是有過(guò)十年的專(zhuān)業(yè)經(jīng)驗(yàn)做背書(shū)的。 例如,筆者得知百度世界杯足球預(yù)測(cè)十八連勝,就斷言,百度的大數(shù)據(jù)、人工智能算法不靠譜,里面絕對(duì)有大量的人工干擾。 果然,不斷兩個(gè)月,百度的大數(shù)據(jù)圖像識(shí)別,被K了,(百度在ImageNet圖像識(shí)別測(cè)試中有違規(guī)行為) 參見(jiàn)《又一只黑天鵝爆掉了》,http://blog.sina.com.cn/s/blog_7100d4220102vnm2.html 注意這個(gè)blog日期,和zw大數(shù)據(jù)系列blog,最早斷言,百度大數(shù)據(jù)有問(wèn)題的blog發(fā)表日期,這個(gè)是真實(shí)的案例。 這個(gè)也可以視為一種經(jīng)驗(yàn)?zāi)P?#xff0c;因?yàn)槲覀兊暮谔禊Z算法,自身數(shù)據(jù)回測(cè),準(zhǔn)確度,也不會(huì)超過(guò)90%。谷歌、微軟的準(zhǔn)確度在50-60%左右。
我們強(qiáng)調(diào)“小數(shù)據(jù)理論”的第二個(gè)原因,以目前大數(shù)據(jù)應(yīng)用最廣泛的、最深入的量化交易為例。 無(wú)論什么模型、算法,無(wú)論是pc集群、云計(jì)算、天河巨型機(jī)系統(tǒng),歸根到底,就是一個(gè)“漲”和“跌”的問(wèn)題。 簡(jiǎn)而言之,就是一個(gè)1與0的問(wèn)題。 這個(gè),說(shuō)來(lái)說(shuō)去,又繞到了最基本的哲學(xué)問(wèn)題,非三言?xún)烧Z(yǔ)能夠說(shuō)清。 ps,2015.8.11 補(bǔ)充,本文發(fā)布后,發(fā)現(xiàn)也有學(xué)者開(kāi)始強(qiáng)調(diào)“小數(shù)據(jù)”了
《大數(shù)據(jù),小數(shù)據(jù),哪道才是你的菜?》
http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html
看來(lái),zw的大方向,還是正確的 :)
事實(shí)上,對(duì)于大數(shù)據(jù)而言,比金融股票更好的數(shù)據(jù)算法對(duì)象,是足彩數(shù)據(jù), 因?yàn)樽悴实慕Y(jié)果是3、1、0,勝、平、負(fù),三種狀態(tài)結(jié)果 這三種狀態(tài)結(jié)果,可以適用于所有的模型框架,暗合易經(jīng)之道: 一生二,二生三,三生萬(wàn)物。 至于為什么,我也在研究。
有興趣的朋友,可以參考《文科生、易經(jīng)與大數(shù)據(jù)》 http://blog.sina.com.cn/s/blog_7100d4220102vne7.html
關(guān)于大數(shù)據(jù)、高頻交易和人工智能,個(gè)人的基本觀點(diǎn):凡是無(wú)法通過(guò)“足彩數(shù)據(jù)”實(shí)盤(pán)測(cè)試的方案、算法,都是在耍流氓。 足彩數(shù)據(jù)是最透明的數(shù)據(jù)源,如果足彩不是 就沒(méi)有更加公平的了博弈模型, 如果 這個(gè)都通不過(guò)其他都是扯蛋 所以說(shuō):足彩是最合適的數(shù)據(jù)源有歷史數(shù)據(jù) 還有橫向?qū)Ρ?/font> 其他任何數(shù)據(jù)源都沒(méi)有這種實(shí)時(shí)的“矩陣”數(shù)據(jù)源 2014年世界杯對(duì)于大數(shù)據(jù)人工智能 是個(gè)分水嶺 是元年 微軟 谷歌 百度都有相關(guān)的項(xiàng)目勝率<50%
參見(jiàn)《字王看:大數(shù)據(jù)觀點(diǎn)補(bǔ)充》 http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html
AI人工智能理論專(zhuān)家,和理論物理學(xué)家、理論天文學(xué),大部分不是程序員(實(shí)驗(yàn)員), 因此,要求他們學(xué)習(xí)c,可能需要等上一百年,還不一定靠譜。 不過(guò),“生命總是會(huì)找到自己的進(jìn)化之路。”(侏羅紀(jì)公園) 轉(zhuǎn)來(lái)轉(zhuǎn)去,AI人工智能、大數(shù)據(jù)方面的理論專(zhuān)家,不約而同地找到了python 同樣的,目前量化投資領(lǐng)域,一線交易員必須自己code,他們的選擇也是python
“目前,量化投資、高頻交易領(lǐng)域,一線操盤(pán)手自己編程,將投資策略直接程序化,已經(jīng)成為國(guó)際大投行的標(biāo)配。” “在數(shù)據(jù)處理領(lǐng)域,特別在量化交易方面,python已成為“統(tǒng)治級(jí)”編程語(yǔ)言。” 參見(jiàn)《零起點(diǎn),python大數(shù)據(jù)與量化交易》 http://blog.sina.com.cn/s/blog_7100d4220102vlpa.html
事實(shí)上,目前,python已經(jīng)是天文學(xué)、化學(xué)行業(yè)的標(biāo)準(zhǔn)編程語(yǔ)言 既然,這些地球上最聰明的家伙,都不約而同選擇了python,我們?yōu)槭裁床弧案M(jìn)”呢?
目前,python在人工智能、機(jī)器學(xué)習(xí)方面積累的資源,可能比c、r語(yǔ)言、matlab等加起來(lái)都要多,而且全部是“TOP one”級(jí)別的: scikit-learn、Orange、NLTK、MDP、PyBrain、BigML、PyML、Pattern 、Theano、Pylearn等
r語(yǔ)言雖然憑借統(tǒng)計(jì)背景,在早期的大數(shù)據(jù)、人工智能方面有些熱, 不過(guò),到2012、2013年,涉及到深層的AI理論、算法模型時(shí),r語(yǔ)言就力不從心了 而此時(shí),無(wú)論是厚積薄發(fā)的scikit-learn、NLTK,還是pandas、Theano、Pylearn的異軍突起, 一下子,就把r語(yǔ)言上升的勢(shì)頭給掐死了,順便把,matlab給傷大了,就像加多寶PK王老吉,把和其正給滅了。:)?
Hadoop、Spark雖然都內(nèi)置編程語(yǔ)言,特別是spark,內(nèi)置的scala,完全lisp風(fēng)格 lisp近年因函數(shù)編程大熱,事實(shí)上,lisp和prolog,也一直是AI人工智能的行業(yè)標(biāo)準(zhǔn)語(yǔ)言。 lisp的逆波蘭語(yǔ)法雖然小眾,不過(guò)作為AI行業(yè)的筆者,還是比較熟悉的,而且比起曾經(jīng)用過(guò)的,100%純逆波蘭風(fēng)格的forth,語(yǔ)法要簡(jiǎn)單、傳統(tǒng)N倍 盡管如此,筆者還是義無(wú)反顧,選擇了python。
因?yàn)?#xff0c;目前大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)都尚處于0.1版本階段 這個(gè)階段,需要的是,大量的建模、分析、測(cè)試 而python,可能是地球上建模最快的編程語(yǔ)言,再加上,python有這么多的數(shù)據(jù)分析、機(jī)器學(xué)習(xí)模塊庫(kù),而且大部分是開(kāi)源的 AI行業(yè),國(guó)際頂級(jí)的專(zhuān)家學(xué)者也如是說(shuō):(參見(jiàn)附錄) “基本上(機(jī)器學(xué)習(xí))工具有兩個(gè)推薦:Torch7(lua)、Theano + Pylearn2(python)”
python最大的缺點(diǎn)是速度,一般比c慢十倍左右,不過(guò)大數(shù)據(jù)分析的瓶頸在IO, 目前,全內(nèi)存計(jì)算是趨勢(shì),而且intel前幾天發(fā)布的xpoint,號(hào)稱(chēng)能夠提高內(nèi)存速度1000倍,基本上是cpu內(nèi)部cache級(jí)別 (事實(shí)上,目前最前沿的高頻、黑池交易軟件,已經(jīng)開(kāi)始基于cpu的cache進(jìn)行加速編程) 另外一個(gè)大殺器是,gpu并行運(yùn)算,無(wú)論是cuda、opencl,2014年,千元左右的GPU,已經(jīng)能夠提速3-500倍,未來(lái)幾年,2020前,提速3000-5000倍,甚至上萬(wàn)倍,應(yīng)該沒(méi)有問(wèn)題。 具體到python,雖然有衰減,不過(guò)目前,非官方的GPU模塊庫(kù),提速100-200倍,已經(jīng)完全ok。
至于gpu并行運(yùn)算的門(mén)檻,目前已經(jīng)很低了,最簡(jiǎn)單的,只要在相關(guān)函數(shù)前,加一個(gè)python的修飾符"@jit",就全自動(dòng)加速。 無(wú)需修改任何其他代碼,至于超級(jí)復(fù)雜的cpu、gpu內(nèi)存拷貝、交換,cl異構(gòu)運(yùn)算語(yǔ)法、矢量編程,完全可以無(wú)視,比matlab還方便 pandas、scikit-learn的GPU加速模塊,也已經(jīng)發(fā)布了多種版本, 目前,python與c、fortran,已經(jīng)是cuda官方認(rèn)可的三大gpu并行編程語(yǔ)言。 工業(yè)級(jí)的大數(shù)據(jù)分析,離開(kāi)gpu,即使是計(jì)算機(jī)集群,無(wú)論在投資產(chǎn)出、還是實(shí)時(shí)運(yùn)算方面,完全就是扯淡。 相比c、fortran,無(wú)疑,python要可愛(ài)的多,特別是“小白”般的理論學(xué)者。
python號(hào)稱(chēng):膠水語(yǔ)言,是目前唯一能夠打通: pandas、Scala、R語(yǔ)言、Q語(yǔ)言、Quant、matlab、hadoop、spark 等目前、以及未來(lái),各種大數(shù)據(jù)架構(gòu)的平臺(tái),
統(tǒng)一的開(kāi)發(fā)環(huán)境、統(tǒng)一的數(shù)據(jù)分析平臺(tái),無(wú)論在前期的建模、測(cè)試,還是后期的數(shù)據(jù)分析、系統(tǒng)維護(hù), 在管理維護(hù)、培訓(xùn)研發(fā)成本方面,至少可以降低一個(gè)數(shù)量級(jí)。 想象一下,同時(shí)維護(hù)windows、linux,甚至還有ios、bsd,以及手機(jī)安卓app, 更何況,大數(shù)據(jù)往往還需要提供集群,gpu異構(gòu)運(yùn)算支持。。。。。 這些,僅僅是維護(hù)的硬件、軟件名錄清單,就可以把一個(gè)企業(yè)的IT部門(mén)主管,以及所有的工程師逼瘋。
既然,python如此美好? 大數(shù)據(jù), why python? 應(yīng)該說(shuō)得通吧。 (ps,本文是因《zwPython 3.0 初步規(guī)劃》blog,有感而作,沒(méi)有詳細(xì)核對(duì)資料,可能有不少bug,請(qǐng)大家諒解)
ps2.2015.8.10
《大數(shù)據(jù), why python?》,原本以為只是一家之言 blog發(fā)布不到幾天,發(fā)現(xiàn)了一篇類(lèi)似的blog 《大數(shù)據(jù)全棧式開(kāi)發(fā)語(yǔ)言 – Python》 http://news.cnblogs.com/n/526283/
Python 可以稱(chēng)為大數(shù)據(jù)全棧式開(kāi)發(fā)語(yǔ)言。因?yàn)?Python 在云基礎(chǔ)設(shè)施,DevOps,大數(shù)據(jù)處理等領(lǐng)域都是炙手可熱的語(yǔ)言。 像只要會(huì) JavaScript 就可以寫(xiě)出完整的 Web 應(yīng)用,只要會(huì) Python,就可以實(shí)現(xiàn)一個(gè)完整的大數(shù)據(jù)處理平臺(tái)。
看來(lái),《大數(shù)據(jù), why python?》,又召喚到一只黑天鵝
--------------- 【附錄】 blog的部分引用,來(lái)自對(duì)國(guó)際頂尖AI專(zhuān)家Yann LeCun(燕樂(lè)存)的訪問(wèn)記錄 http://www.cnblogs.com/yymn/p/4619320.html Yann LeCun(燕樂(lè)存),Facebook人工智能實(shí)驗(yàn)室主任,NYU數(shù)據(jù)科學(xué)中心創(chuàng)始人,計(jì)算機(jī)科學(xué)、神經(jīng)科學(xué)、電子電氣科學(xué)教授。 他1983年在ESIEE獲得電氣工程學(xué)位,1987年在UPMC獲得計(jì)算機(jī)博士學(xué)位。在多倫多大學(xué)做了一段時(shí)間博士后,于1988年加入位于新澤西州的AT&T貝爾實(shí)驗(yàn)室。 1996年他成為圖像處理研究部的主任,2003年,在普林斯頓NEC研究院經(jīng)歷短暫的Fellow生活以后,加入NYU。 2013年,他被Facebook聘請(qǐng)為人工智能實(shí)驗(yàn)室主任,同時(shí)仍在NYU兼職。
?深度學(xué)習(xí)可不是一個(gè)容易用的方法,你能給大家推薦一些工具和教程么?大家都挺想從在自己的數(shù)據(jù)上跑跑深度學(xué)習(xí)。 答:基本上工具有兩個(gè)推薦: Torch7 Theano + Pylearn2 他們的設(shè)計(jì)哲學(xué)不盡相同,各有千秋。Torch7是LuaJIT語(yǔ)言的一個(gè)擴(kuò)展,提供了多維數(shù)組和數(shù)值計(jì)算庫(kù)。它還包括一個(gè)面向?qū)ο蟮纳疃葘W(xué)習(xí)開(kāi)發(fā)包,可用于計(jì)算機(jī)視覺(jué)等研究。 Torch7的主要優(yōu)點(diǎn)在于LuaJIT非常快,使用起來(lái)也非常靈活(它是流行腳本語(yǔ)言Lua的編譯版本)。
Theano加上Pylearn先天就有Python語(yǔ)言帶來(lái)的優(yōu)勢(shì)(Python是廣泛應(yīng)用的腳本語(yǔ)言,很多領(lǐng)域都有對(duì)應(yīng)的開(kāi)發(fā)庫(kù)),劣勢(shì)也是應(yīng)為用Python,速度慢。
?xxxx 答:“對(duì)于(大數(shù)據(jù)、人工智能)這個(gè)詞,我覺(jué)得最近社交網(wǎng)絡(luò)上比較流行的那個(gè)笑話非常貼切,把大數(shù)據(jù)比作青少年性行為:每個(gè)人都在談?wù)撍?#xff0c;沒(méi)人知道到底怎么做,每個(gè)人都以為其他人知道怎么做,所以每個(gè)人都聲稱(chēng)自己也在做、”
----------- ps,8月11日,新浪blog審核,老是不讓發(fā)新文章,只能先把
《大數(shù)據(jù)·實(shí)戰(zhàn)個(gè)案“宏”分析》作為附件發(fā)這里
------------大數(shù)據(jù)·實(shí)戰(zhàn)個(gè)案“宏”分析
MBA教育體系最成功之處,就在于導(dǎo)入了科學(xué)的個(gè)案分析。
Ps,二戰(zhàn)最偉大的技術(shù)成功,不是原子彈、導(dǎo)彈、噴氣機(jī),而是流水線。流水線提供的生產(chǎn)力,比二戰(zhàn)所有科技提高的總和還要高。
至于“宏”,學(xué)過(guò)c語(yǔ)言的,都知道宏定義、宏替換。
本文不玩文字游戲,也不玩數(shù)字游戲,只是簡(jiǎn)簡(jiǎn)單單,對(duì)幾個(gè)大數(shù)據(jù)實(shí)戰(zhàn)個(gè)案,進(jìn)行宏觀的定性分析。
目前,大數(shù)據(jù),和大數(shù)據(jù)分析的核心,人工智能,都處于v0.1的黑暗期,這個(gè)階段,“宏”分析,可能比大量的數(shù)字堆砌,更加重要。
還記得量子物理學(xué)爆發(fā)前的原子軌道模型嗎?
當(dāng)時(shí),有幾個(gè)人能夠想象、理解原子軌道的跳變模型?
還記得天圓地方、地球中心學(xué)嗎?
要不是哥倫布,“宏”分析一把,認(rèn)為地球是個(gè)“球”,敢去環(huán)球探險(xiǎn)?
?
廢話少說(shuō),言歸正傳。
本文“宏”分析,包括以下幾個(gè)大數(shù)據(jù)案例:
l?經(jīng)典“啤酒+尿布”案例
l?2015中國(guó)股市“七·七”股災(zāi)
l?國(guó)內(nèi)首個(gè)大數(shù)據(jù)網(wǎng)絡(luò)推廣個(gè)案
?
個(gè)案1:經(jīng)典“啤酒+尿布”案例
“啤酒+尿布”案例,是最經(jīng)典、最古老的大數(shù)據(jù)個(gè)案,其歷史甚至比大數(shù)據(jù)這個(gè)名詞更悠久。
早在上個(gè)世紀(jì),dbase時(shí)代,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)分析,都用其做過(guò)案例。
久而久之,“啤酒+尿布”案例,似乎成了“神”一樣的存在。
好像三大幾何原理,成為大數(shù)據(jù)的基本“公理”。
不過(guò),這個(gè)“神”,是“偽神”。
?
參見(jiàn):《字王看:大數(shù)據(jù)觀點(diǎn)補(bǔ)充》
http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html
【黑天鵝才是新常態(tài)】
"啤酒和尿布有什么關(guān)系",這個(gè)十年前經(jīng)典案例,?目前我是作為反面課件來(lái)說(shuō)的
這個(gè)是冰島的一個(gè)數(shù)據(jù)分析結(jié)果,至少?在中國(guó)??不存在
?
參見(jiàn):《大數(shù)據(jù)與黑天鵝等》
http://blog.sina.com.cn/s/blog_7100d4220102vkxa.html
大數(shù)據(jù),再多的專(zhuān)家,再nb的模型,再炫的demo,
也不如自己親自去沃爾瑪、家樂(lè)福、華潤(rùn)等超市親眼看看,再回頭問(wèn)問(wèn)這些大師們,"啤酒和尿布"模型,怎么玩砸了?
個(gè)案2:2015中國(guó)股市“七·七”股災(zāi)
blog《股災(zāi)、馬云、大數(shù)據(jù)》
http://blog.sina.com.cn/s/blog_7100d4220102vpzv.html
?
blog,雖然發(fā)布與7月20日,但成文要早得多。
“這篇blog,股市關(guān)頭“七·七”之日,就差不多構(gòu)思,因?yàn)槭录舾?#xff0c;一直壓住沒(méi)有發(fā)布。”
?筆者的這篇blog,可能是全網(wǎng)第一個(gè),從大數(shù)據(jù)分析、技術(shù)層面,對(duì)“七·七”股災(zāi),進(jìn)行“宏”分析,斷定事件:
?“七·七”股災(zāi),根本就不關(guān)華爾街、美帝什么事?
?幸運(yùn)的是,筆者blog當(dāng)中,對(duì)于“七·七”股災(zāi)的“宏”分析,及其推斷,目前,已經(jīng)證明是科學(xué)的、正確的。
????“七·七”股災(zāi)前后,整個(gè)社會(huì)好像“三戰(zhàn)”核彈爆發(fā),經(jīng)濟(jì)、金融的“滅國(guó)”之戰(zhàn),國(guó)家經(jīng)濟(jì)有倒退十年的危險(xiǎn)。。。。。
???連外訪總理都匆忙回國(guó),好像美國(guó)華爾街、聯(lián)合歐洲、日本等全球資本,惡意做空中國(guó),
???更加關(guān)鍵的是,這種錯(cuò)誤的推斷,引發(fā)了政府部門(mén)實(shí)質(zhì)性的的救市行為,上萬(wàn)億的資金被導(dǎo)入股市,
? ?好似當(dāng)年三個(gè)代表,有關(guān)政府部門(mén),近期言必“大數(shù)據(jù)”,這次股災(zāi)應(yīng)對(duì),必然會(huì)極大的參考大數(shù)據(jù)方面的資料。
???可惜,政府主導(dǎo)的大數(shù)據(jù),和其他政府項(xiàng)目一樣,往往換來(lái)的是是十倍、百倍的失敗。
???面對(duì)“七·七”股災(zāi),政府種種應(yīng)對(duì)措施,全面失敗,而且,鬧出了個(gè)世界金融史上的超級(jí)“大烏龍”事件,居然找錯(cuò)了“靶標(biāo)”。
???“七·七”股災(zāi)的最終調(diào)查結(jié)果,目前雖然沒(méi)有發(fā)布,但有消息稱(chēng),雖然不一定正確:
???前期,不過(guò)是江浙的一些土老板,為防止風(fēng)險(xiǎn),做的空頭對(duì)沖保險(xiǎn),因?yàn)榕滟Y杠桿,引發(fā)的技術(shù)性股市大幅度下調(diào)。
???后期,則是因?yàn)槌绦蚧灰紫到y(tǒng),對(duì)閥值K值的設(shè)定,引發(fā)的一系列自動(dòng)拋盤(pán),
???就像前幾年光大烏龍事件,專(zhuān)業(yè)人員一聽(tīng),就知道是因?yàn)榻灰紫到y(tǒng),相關(guān)參數(shù),未進(jìn)行初始化設(shè)置,直接上線引發(fā)的自動(dòng)拋盤(pán)
???也許,“七·七”股災(zāi),根本就不關(guān)華爾街、美帝什么事?
???完全是躺槍。
?ps,8月10日新增片段:筆者很少引用中華網(wǎng)的資料,因?yàn)榛臼?/font>TG的文宣。不過(guò)這次,過(guò)了一個(gè)月,這些blog也羞羞答答、間接認(rèn)可了上面的推斷。
《大老虎想在中國(guó)玩雙頭政治?白日做夢(mèng)》 ??http://jnwct.blog.china.com/201508/13458004.html
???歐洲最近有點(diǎn)看中國(guó)的笑話。大老虎作亂。歐美都看笑話。
???(ps,應(yīng)該就是這個(gè)“七·七”股災(zāi)的超級(jí)“大烏龍”事件)
???
個(gè)案3:國(guó)內(nèi)首個(gè)大數(shù)據(jù)網(wǎng)絡(luò)推廣個(gè)案
?2004年,我們利用AI人工智能和大數(shù)據(jù)分析技術(shù),研發(fā)成功國(guó)內(nèi)首個(gè)海量級(jí)社區(qū)營(yíng)銷(xiāo)軟件:百萬(wàn)社區(qū)營(yíng)銷(xiāo)系統(tǒng)(軟件著作權(quán)登記號(hào):2005sr5133)。社區(qū)數(shù)據(jù)庫(kù)超過(guò)一百萬(wàn)個(gè),比同期類(lèi)似產(chǎn)品,高兩個(gè)數(shù)量級(jí)。
2008年,依托百萬(wàn)社區(qū)營(yíng)銷(xiāo)系統(tǒng),在北京聯(lián)合創(chuàng)辦國(guó)內(nèi)首家4A級(jí)的專(zhuān)業(yè)網(wǎng)絡(luò)公關(guān)公司:wowa傳媒,首年業(yè)績(jī)突破一千萬(wàn)。
同年,“特侖蘇”?危機(jī)公關(guān)案爆發(fā),wowa受中國(guó)國(guó)際公關(guān)協(xié)會(huì)委托,在北京,首度對(duì)國(guó)內(nèi)大型公關(guān)公司,統(tǒng)一進(jìn)行專(zhuān)業(yè)的網(wǎng)絡(luò)公關(guān)培訓(xùn),被協(xié)會(huì)譽(yù)為:中國(guó)網(wǎng)絡(luò)公關(guān)事業(yè)的開(kāi)拓者和啟蒙者。
Wowa服務(wù)過(guò)150+國(guó)際500強(qiáng)客戶(hù);是微軟公司首家官方認(rèn)證的網(wǎng)絡(luò)公關(guān)服務(wù)商;新華美通首選網(wǎng)絡(luò)傳媒合作伙伴;國(guó)內(nèi)TOP10網(wǎng)絡(luò)公關(guān)公司,50%采購(gòu)過(guò)wowa的服務(wù)。
?2007年,操盤(pán)惠普筆記本“數(shù)碼混搭”推廣個(gè)案,成為年度十大公關(guān)行業(yè)經(jīng)典案例(注意,非僅指網(wǎng)絡(luò)公關(guān));被業(yè)界譽(yù)為:史上最強(qiáng)之網(wǎng)絡(luò)推廣案例,沒(méi)有之一;不可逾越的概念營(yíng)銷(xiāo)“標(biāo)桿之作”。
?我們?cè)诨萜展P記本“數(shù)碼混搭”推廣個(gè)案當(dāng)中,首度提出的百度、谷歌搜索引擎:覆蓋率指標(biāo),NLP反向鏈接數(shù),等參數(shù),目前已經(jīng)成為網(wǎng)絡(luò)公關(guān)行業(yè)的基礎(chǔ)指數(shù)。
這個(gè)也是大數(shù)據(jù)技術(shù),首度在網(wǎng)絡(luò)推廣方面的應(yīng)用個(gè)案,我們當(dāng)時(shí)的經(jīng)驗(yàn)參數(shù):1:1000。(百度NLP反向鏈接數(shù)-抽樣采集率)。
按照客戶(hù)要求,利用自行開(kāi)發(fā)的AI語(yǔ)義分析系統(tǒng),針對(duì)“筆記本電腦”,“數(shù)碼混搭”兩個(gè)主關(guān)鍵詞,結(jié)合百度、搜狗的行業(yè)分類(lèi)關(guān)鍵詞,將發(fā)布主題帖,細(xì)分為數(shù)十組不同風(fēng)格的軟文,并在每篇軟文前后,插入系統(tǒng)細(xì)分的關(guān)鍵詞組。
硬件方面,我們采用了近百臺(tái)PC,組成了一個(gè)簡(jiǎn)單的發(fā)布集群系統(tǒng),通過(guò)1-2周時(shí)間,圍繞關(guān)鍵詞:hp筆記本、數(shù)碼混搭,發(fā)布了過(guò)百萬(wàn)條網(wǎng)絡(luò)推廣軟文。
最終,hp筆記本“數(shù)碼混搭”的網(wǎng)絡(luò)推廣方案,獲得了“空前絕后滿(mǎn)天飛”的成功,軟文的存活率非常高。
“數(shù)碼混搭”個(gè)案當(dāng)中高至70-80%的覆蓋率,至今,國(guó)內(nèi)外尚沒(méi)有一家團(tuán)隊(duì)、公司能夠超越,包括百度、谷歌自身。
?
?
技術(shù)博客:http://blog.sina.com.cn/zbrow
? --------------
zwPython 3.0 初步規(guī)劃
zwPython 3.0目標(biāo):目前最強(qiáng)的集成式Python開(kāi)發(fā)平臺(tái),大數(shù)據(jù)分析平臺(tái),沒(méi)有之一:
?
- :: 比pythonXY更加強(qiáng)大,內(nèi)置全中文用戶(hù)手冊(cè);
- :: 蘋(píng)果“開(kāi)箱即用”模式,綠色軟件,解壓即可,零配置。
- :: 首個(gè)All-in-one大數(shù)據(jù)分析平臺(tái):內(nèi)置pandas、Scala、R語(yǔ)言、Q語(yǔ)言、Quant、matlab、hadoop、spark模塊庫(kù)和API接口支持。(僅限V3.0版本)
- :: 超強(qiáng)功能:圖像處理、AI人工智能、機(jī)器學(xué)習(xí)、openCV人像識(shí)別、gpu、openCL并行超算開(kāi)發(fā)、pygame游戲設(shè)計(jì)......
因?yàn)椤癆ll-in-one”大數(shù)據(jù)分析平臺(tái),增加了N多第三方軟件,許多都是目前IT領(lǐng)域最前沿的大型系統(tǒng),
測(cè)試相關(guān)腳本代碼很耗時(shí)間,相關(guān)軟件,包括python本身,也都在不斷更新當(dāng)中(而且非常活躍),
目前無(wú)法確定最終發(fā)布時(shí)間,初步預(yù)計(jì)需要6-10個(gè)月。
幸運(yùn)的是,zwPython 3.0,基本平臺(tái)框架,和80%的新增模塊,都已經(jīng)到位
至于為什么選擇python,作為大數(shù)據(jù)分析平臺(tái),請(qǐng)參見(jiàn)blog《大數(shù)據(jù),why python》
http://blog.sina.com.cn/
---
更多參見(jiàn)blog《大喜,python版opencv3發(fā)布 》
http://blog.sina.com.cn/s/blog_7100d4220102vo2m.html
zwPython3的升級(jí)也可以啟動(dòng)了,一直在等這個(gè),zwPython會(huì)直接升級(jí)到版本3:zwPython3
大喜python版opencv3發(fā)布,demo腳本搶鮮版發(fā)布
zwPython3采用64位python3,支持opencv3
zwPython3的重點(diǎn)會(huì)由原來(lái)偏重于字庫(kù)、圖像處理,延展到大數(shù)據(jù)領(lǐng)域,會(huì)重點(diǎn)強(qiáng)化以下模塊:
pandas數(shù)據(jù)分析?
theano、Scikit Learn機(jī)器學(xué)習(xí)?
cuda、gpu并行超算?
采用python3,是因?yàn)関3的內(nèi)碼是unicode,而且是趨勢(shì),目前模塊庫(kù)也n多了,超過(guò)一萬(wàn)個(gè)
原來(lái)用2.7版,最主要的是因?yàn)閛pencv2對(duì)python3 的支持很差
遺憾的是,opencv3的demo腳本還都是python2的,連GitHub的官方包都是
為方便大家學(xué)習(xí)opencv3,用2to3.py把demo腳本升級(jí)到python3,并修改了數(shù)據(jù)包目錄
測(cè)試了一下,70%可以直接運(yùn)行
作為搶鮮版,大家先湊合用用
下載還是在zw項(xiàng)目的百度網(wǎng)盤(pán):
http://pan.baidu.com/s/1tY7Wq?
?
文件名:cv3python3demo.zip
?
?
?
?
?
轉(zhuǎn)載于:https://www.cnblogs.com/ziwang/p/9500397.html
總結(jié)
以上是生活随笔為你收集整理的大数据,why python的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 一些不错的文档网址--笔记【原创】
- 下一篇: micropython里面外接tf(sd