2016机器学习大盘点(第3篇)
本篇是2016年度機器學習和深度學習系列文章的第三篇。第一篇中,我們介紹了這一領域的重要趨勢,例如有關偏見的擔憂,互操作性,深度學習技術的爆發性增長,更加平易近人的超級計算,以及機器學習云平臺的涌現。在第二篇中,我們介紹了開源機器學習項目,例如R、Python、Spark、Flink、H2O、TensorFlow等的進展。
本文將介紹大型科技公司在機器學習和深度學習領域的舉措,這些行業領軍公司在軟件開發和市場營銷方面往往有更充沛的預算。本文要介紹的大型公司包括:
- SAS,分析預測技術領域軟件收入最高的企業,具備一種獨一無二,自成一派的業務模式。
- 諸如IBM、微軟、Oracle、SAP以及Teradata等公司,在數據倉庫市場上占據優勢地位,除Teradata之外其他幾家公司均提供了獲得廣泛應用的商業智能軟件。這些公司具備為現有客戶群開發、營銷,以及交叉銷售各類機器學習軟件所需的財務優勢,只要愿意,就能在市場中產生極大的反響。
- 戴爾和HPE作為高級分析市場的新手,已在2016年黯然退場。
第一篇曾介紹過谷歌和Amazon Web Services。雖然這兩家公司目前在業務分析領域尚無太大建樹,但正在向著這個方向發力。為了涉足這個市場,谷歌今年已經設立了Google Cloud Machine Learning這一獨立產品組,亞馬遜也已提供了一個名為QuickSight的業務分析服務。
熟悉我的讀者都知道,我更喜歡開源軟件,大部分數據科學家也是如此。在本篇將要介紹的諸多公司中,IBM和微軟已經對開源模式做出了大量承諾,包括直接向開源軟件項目提交貢獻。這樣的舉措值得鼓勵。Teradata開始對Presto SQL進行投入,這一行為值得為之鼓掌。Oracle和SAP在自己的解決方案中使用了開源軟件,但并未作出太大貢獻。SAS擁抱開源的姿態總給人造成一種“視死如歸”的感覺。
在第四篇文章中,我將介紹幾個機器學習領域的初創公司,并公布之前年度調查的結果。
SAS
根據IDC調查,在高級和預測式分析軟件市場中,SAS的軟件許可收入居于首位。該公司有一大批統計學、精算師、生命科學家,以及其他在工作中需要嚴重依賴統計分析結果的用戶。
通過與IBM合作,SAS依托為IBM System/360大型機開發軟件的優勢,在二十世紀七十年代正式開門營業。為了吸引用戶使用自己的硬件,IBM當時曾向自己的企業客戶推薦SAS的軟件。目前SAS依然在為大型機開發軟件,大部分收入依然來自大型機用戶。IBM的一些大型機客戶甚至專門為了運行SAS的軟件而繼續使用大型機。
二十世紀九十年代,SAS成功地轉型為多架構軟件供應商,開始針對大量其他硬件平臺和操作系統移植自己的軟件。這期間SAS通過行業優勢和企業級軟件樹立了自己的聲譽,采取了與SPSS這種專注于為桌面開發更易用軟件的廠商截然不同的做法。
乍看起來,SAS正在極力從基于服務器的計算軟件供應商向著最新的分布式架構和云計算時代轉型。過去十年來,為改善自家產品的性能和縮放性,該公司公布了多項舉措,但結果有好有壞。4月,SAS公布了Viya,這是該公司第三次企圖為分布式MPP架構提供高級分析軟件。
SAS Viya是什么?與SAS以往提供的高性能軟件有何不同?宣傳冊里有介紹:
云就緒,彈性,可縮放
SAS Viya的開發充分考慮到私有和公有云環境的彈性和可縮放性。內存中分析運算已針對更自由的環境進行優化,但也可通過調整融入受到各種限制的環境中。彈性處理能力可自動適應不同需求和可用資源的數量,并可按需對計算容量進行擴大或縮小。彈性縮放能力使得用戶能夠快速針對不同使用場景進行實驗,并對更大數量的流數據應用更復雜的方法。
嗯,任何軟件都是“云就緒”的,就好像無論在本地或云中運行,Linux實例始終就Linux實例。當然在將任何軟件部署到虛擬裝置,例如Amazon Machine Image中之后,任何軟件都將具備彈性,SAS 9.4也不例外。雖然SAS在2014年將其稱之為“云就緒”,但就算更老版本的SAS也可以部署在AWS中,盡管SAS并不為其提供官方支持。
然而如果你想構建這樣的軟件實例,還必須具備軟件許可。對于Python、R或Spark這樣的開源軟件來說,許可完全不是一個問題,想搭建幾個實例都行,完全不需要擔心是否會違反許可協議。商業化軟件就復雜多了,必須為想要運行的實例支付許可費用。一些供應商,例如HPE和Teradata曾經嘗試通過自己的云平臺與Amazon Web Services進行競爭,并最終悲慘地失敗了。其他一些廠商,例如Oracle則選擇與AWS合作在云平臺提供自己的軟件,例如使用捆綁的托管式服務,或選擇“自帶許可(Bring Your Own License,BYOL)”模式。
換句話說,如果沒有靈活的許可模式,就無法用商業化軟件獲得彈性計算能力。但靈活的許可模式會對SAS這樣的供應商造成一個問題:如果客戶只為自己使用的東西付費,毫無疑問他們最終支付的費用會遠遠少于常規許可方式的費用。這是因為大部分商業化軟件的客戶實際上是過度許可的:會為大量自己根本沒有使用的軟件付費。整個軟件行業在本地部署軟件許可費用的收入減少幅度遠大于從云訂閱中所獲得收入的增速。云環境真正實現了“付出更少,做的更多”。
底線是:除非Viya提供更靈活的定價模式,否則沒人會關心它的“云就緒,彈性,可縮放”。
如果想找點樂子,下次當你的SAS客戶代表鼓吹Viya的彈性時,不妨問問對方這軟件每使用一小時,軟件許可需要花多少錢,然后欣賞一下對方糾結的表情吧。
開放的分析開發環境
SAS Analytics使得數據科學家可以輕松地使用各種編程語言,無論Python筆記本、Java客戶端、Lua腳本接口或SAS,數據建模人員和數據科學家都可以輕松地使用SAS完成各種數據操作、高級分析和分析報表任務。
我們都在期待通過Lua運行SAS的能力。
適應性架構和有保障的故障轉移
具體做法取決于,并且需要具備足夠的分析處理能力。必須確保所有分析運算可以不被打斷順利完成。SAS Viya的容錯設計可自動檢測故障的服務器,甚至可支持多平臺處理環境,并能根據需要對處理任務進行分布。同時該技術可在處理群集內維持數據的多個副本。如果群集中某臺計算機不可用或故障,還可從其他機器獲取所需數據,快速恢復處理任務。這些自治愈機制確保了可提供不打斷處理工作,可自動恢復的高可用性。
“可在Hadoop上運行。”
在接受福布斯的采訪時,SAS CEO Jim Goodnight提到了Viya的優勢:
我們已經面向大數據做好了準備…(我們)剛剛發布了全新架構Viya的第一個版本,主要面向大規模并行計算領域,可將數據分散到數十臺服務器上,隨后使用這些服務器的所有處理器內核并行處理數據。也許同一時間可以并行通過500個內核處理這些數據,這種能力使得我們的產品可以應對某些非常非常大規模,以前根本無法解決的問題,例如邏輯回歸。
也許有人可以為G博士提供更充分的論據。順便要提一下,在大規模并行(MPP)環境中運行的商業化邏輯回歸軟件早在1989年就已問世。目前有很多軟件包提供了分布式邏輯回歸功能,包括SAS五年前發布的軟件包。
邏輯回歸(非線性模型)是一種迭代的過程?;旧暇褪窃谠囍浪隳P偷膮?#xff08;Parameter),然后隨便進行一下猜測,并通過猜測跑完整個數據,隨后對模型進行優化并再次猜測,然后再次跑完整個數據,相同的過程一次次重復進行,直到參數實現匯聚或者根本再無太大變化。這可能要對整個數據集進行25次到30次運算。以前我們還必須多次讀取數據,現在數據可以保存在內存中。放在內存中的數據將始終留在內存里,并分散給500個處理器內核,每個內核只需要處理少量數據,這樣就可以在幾分鐘里完成25次迭代,以往這一過程需要數小時。
其實和Spark差不多,但需要具備許可。
(Viya)其實是我們第三代大規模并行計算產品。七年前我們就開始著手研究這個問題,這是研究成果的第三次突破,終于把所有問題都解決了。
等到2018年,估計他會說用了九年時間終于實現了第四次突破。
在高性能分析領域,Viya也許會比SAS的前幾次突破實現更好的效果。然而他們所面臨的障礙本身也不大,SAS迫切需要證明他們高成本專有分布式框架比Apache Spark更優秀,而Spark正在快速成為企業大數據平臺的新標準。
雖然SAS的多個產品均支持機器學習技術,但缺乏深度學習能力。SAS營銷團隊針對深度學習制作了一些有用的內容,但仔細看看這些內容你會發現,根本沒有什么能真正提供深度學習能力的產品。沒錯,我知道SAS Enterprise Miner支持多層感知器(Multilayer perceptron),但SAS不支持GPU、Xeon Phi、Intel Nervana,或任何其他能夠讓你不用等到老就能完成深度神經網絡訓練任務的高性能架構。
如果你認為用一臺服務器運行一款18歲高齡的產品就足以勝任你的深度學習項目,那你說的一定是SAS。然而要注意,NVIDIA的DGX-1,這款借助GPU加速的深度學習硬件設備具備250臺傳統服務器運算能力的強大性能,這是有原因的:你真的需要這么強大的運算能力。
SAS的其他業務似乎發展的挺順利。龐大的現有客戶群所產生的續訂、升級,以及超售行為可以讓他們在2016年實現比較低的個位數收入增長率,考慮到IBM、Oracle,以及Teradata的業務下滑,這樣的成績不算很差。
業務分析領域的領軍企業
根據IDC最新的全球軟件市場份額報告,本節介紹的五家公司在業務分析軟件方面每年至少賺到十億美元銷售額。然而他們的大部分收入來自數據倉庫和商業智能軟件,其實都沿襲了SAS在預測分析領域的收入模式。
然而“軟件許可收入”是一種容易造成誤導的指標,因為現在開源軟件的應用越來越普遍。例如IBM、微軟,以及Oracle都在大量使用開源的機器學習軟件對自家的數據倉庫和商業智能平臺進行擴展,而這些領域都是他們的強項。IBM使用Spark作為自己眾多產品的基礎。微軟也已將R集成在SQL Server和PowerBI中,并積極地向自己的企業客戶推廣R。Oracle也采取了類似做法。
IBM
與SAS不同,日漸衰弱的科技巨頭IBM從未給自家的旗艦級高級分析軟件SPSS開發過任何專有的分布式框架。相反,這家公司選擇使用數據庫內引擎(DB2、Netezza和Oracle)以及開源框架(MapReduce和Spark)。
IBM對Apache Spark有貢獻,并將其用在自己的很多產品中,此外還對Apache SystemML有貢獻。IBM Research開發了SystemML的核心,并在2015年將其捐獻給Apache。IBM還通過各種教育和培訓對Spark社區做出了大量貢獻。
2016年,IBM依然以2007年收購而來的SPSS Statistics和SPSS Modeler為主要營銷目標。SPSS Modeler的Release 18版本于3月發布,包含諸多改進,例如為DB2提供了對機器學習的支持,以及在BigInsights中提供了針對IBM General Parallel File System(GPFS)的支持。然而沒幾個數據科學家關心這些,貌似只有150多個企業的CIO依然篤信沒人會因為買了IBM的產品而被炒魷魚。
第一篇文章曾經提過,IBM的機器學習產品正在逐漸遷入IBM的云平臺,用莎士比亞的名言代表我的想法吧:無事生非(Much Ado About Nothing)。
微軟
微軟今年在機器學習和深度學習領域收獲不錯。正如在第一和第二篇文章中提到的,2016年,微軟通過Azure發布了一系列涵蓋視覺、語音、知識,以及搜索的認知API,并通過Azure HDInsight提供了Spark托管服務,同時還完善了Azure機器學習,并以Microsoft Cognitive Toolkit為名發布了2.0版深度學習框架。
這才只是開始。
1月,微軟發布了Microsoft R Server,該產品源自微軟2015年收購的Revolution Analytics。Microsoft R Server包含一套增強的R發行版,一個可縮放的后端,以及其他集成工具。這一年里,微軟發布了R Server的兩個重大版本,第8版中增加了與Spark的Push-down集成,第9版更新了適用于Spark 2.0的Spark集成,并增加了MicrosoftML,這是一個適用于機器學習的新版R軟件包。
微軟3月發布的SQL Server 2016內含SQL Server R Services。在Revolutions博客上,David Smith報道了此次發布的新版,同時Toma? Ka?trun解釋了SQL Server中的R服務所能實現的用途。
11月,經過進一步預覽后,微軟正式發布了適用于Azure HDInsight的R Server,這是一種專門針對HDInsight打造的,可橫向縮放,能與Spark群集集成的R。
微軟還為Azure提供了一個Linux版本的Data Science Virtual Machine(DSVM)。這種針對數據科學家提供的虛擬機以前只能運行Windows實例,DSVM內含Revolution R Open、Anaconda、Visual Studio Community Edition、PowerBI Desktop、SQL Server Express以及Azure SDK。
PowerBI是一套功能強大的微軟數據可視化工具,該工具于8月開始支持R。ComputerWorld的R用戶Sharon Machlis對此感到極為激動。此外Revolutions博客對此也進行了介紹。
R Tools for Visual Studio在3月發布了公開預覽版,并于9月正式發布。同樣在9月,微軟還發布了Microsoft R客戶端,這是一款免費的數據科學家工具,可配合Microsoft R Open和ScaleR分布式后端運行。
微軟數據科學家Gopi Krishna Kumar、Hang Zhang以及Jacob Spoelstra聯手開發了一種適用于數據科學家的方法論,并在9月舉行的2016年度微軟機器學習和數據科學峰會中進行了介紹。David Smith對此有報道。發明者們將該方法稱之為Team Data Science Process,提供了一種可使用諸如Git等系統管理項目內容的標準化目錄結構,此外還包含為整個過程提供支持的開源工具。
除此之外,雷德蒙特這一年在其他方面都較為平淡。
Oracle
對于嚴重依賴Oracle產品的用戶,Oracle提供了一系列極為強大的機器學習工具,包括:
- Oracle Data Mining(ODM),一種可作為原生SQL函數在Oracle Database中運行的機器學習算法套件。
- Oracle Data Miner,適用于ODM的客戶端應用程序,并提供了適用于業務用戶的界面。
- Oracle R Distribution(ORD),一個增強的免費R發行版。
- Oracle R Enterprise(ORE),Oracle R Distribution程序包,提供了將R與Oracle Database集成的工具。
- Oracle R Advanced Analytics for Hadoop(ORAAH),一系列包含原生算法和Spark接口的R binding。
Oracle宣稱ORAAH的原生算法比Spark速度更快,但ORAAH只有兩種算法,所以也沒人會在乎。Oracle有一家合作的OEM廠商Cloudera,因此這個版本的Spark至少也算是一個比較重要的版本。
除了上文列出的這些產品,Oracle在2016年貌似也沒別的什么重大產品發布。
SAP
SAP發布了新版的預測式分析產品,并將其更名為SAP Business Objects Predictive Analytics 3.0。該產品包含兩套相互獨立的自動化功能,一套名為Predictive Factory,另一套名為HANA Automated Predictive Library。Predictive Factory與SAS Factory Miner類似,是一種腳本工具,可以幫助數據科學家創建模型管道,并對其執行進行調度,但該工具無法對數據科學流程本身實現自動化。HANA Automated Predictive Library是一系列可包含在SQL腳本中的函數調用。
HANA Automated Predictive Library是一系列可包含在SQL腳本中的函數調用,但該產品可能只適合SAP HANA的狂熱用戶,并不適合其他人。
SAP在2014年收購了KXEN以及該公司旗下的InfiniteInsight軟件。根據Gartner的調查,該公司的客戶滿意度已跌至谷底,SAP也已落后于所有其他高級分析產品供應商。以前的InfiniteInsight用戶開始產生兩個陣營:(a)IT部門已經開始大量投資SAP產品的用戶,以及(b)其他所有用戶。前者似乎對這些軟件的依賴性很強,而SAP已經開始將其集成于自家產品中;后者則在爭先恐后地逃離。
Teradata
日漸衰敗的數據倉庫供應商Teradata認為自己可以提供極為強大的分析能力。實際上,該公司的大部分收入來自數據倉庫業務,在這個領域,諸如Gartner等分析師給出了較高的評價。
也許可以說Teradata在整個棧的底層有著居高臨下的地位。
Teradata的高管們(如果可以這樣稱呼他們的話)徹底忽視了Hadoop和云計算的影響力。相反,他們篤定地認為Teradata這個品牌是IT高管們的摯愛,用戶還會大批大批地購買他們的設備。這種狹隘的世界觀導致該公司現在的市值已縮水至五年前的三分之一。他們的產品銷量已經連續十季度下滑,并連著七個季度遭遇兩位數的下滑。
經歷了低靡的一季度后,Teradata的董事會炒掉了接受了CEO Mike Koehler的辭呈,并由董事會長期成員Victor Lund接任CEO職務。9月的Teradata合作伙伴大會上,Lund宣布了Teradata會將自己重新定位為一家“分析解決方案”公司。
這還怎么與SAS友好地“在一起”?作為Teradata在高級分析軟件方面的主要合作伙伴,SAS也將自己定位為一家“分析解決方案”公司。當然,不同之處在于,SAS在提供這種解決方案方面已經有很久遠的歷史,并與用戶企業的高管建立了一定的“街頭信譽”,畢竟他們的業務解決方案還是挺成熟的,包含實用的軟件和自己的知識產權,而Teradata除了“改變世界的偉大想法”和PowerPoint幻燈片,似乎什么都沒有。
給Teradata的管理層支個招:嘴上說要向著價值鏈的上游進軍,并不意味著你就有這樣的能力。
其他方面,該公司宣布Aster終于可以支持Spark了,但早在兩年前就沒人在乎這事啦。Teradata還宣布Aster的分析功能已經可以部署到Hadoop。Hadoop上的Aster就是一把無刃還無柄的刀,這個商業化的機器學習庫可是要與無數開源的庫血拼的。Aster還要與Teradata的另一個合作伙伴Fuzzy Logix競爭,該公司的dbLytix庫比Teradata庫的功能豐富六倍,還更成熟。
如果有人提議押賭這套“解決方案”并解綁Aster,也許可以挽回Teradata的頹勢,但一定要考慮地夠周密。
其他科技巨頭
此外還有兩家巨頭:戴爾和HPE,不過他們就是“打醬油”的。
HPE
HPE宣布將公司旗下軟件資產(包括Vertica和Haven)作價25億美元現金出售給英國公司Micro Focus。按照交易協議,Micro Focus同時會將價值63億美元的股權直接轉讓給HPE股東。HPE過去十年來為了這些資產付出了將近200億美元。估價僅為收入的大約2.4倍,這意味著雙方都認為該業務只有很少,甚至毫無增長潛力。Micro Focus以裁人縮減成本而著稱,因此如果你正在為Haven或Vertica工作,也許該考慮更新一下自己的簡歷了。
3月,HPE宣布Haven OnDemand將可用于Microsoft Azure。Haven是一種將Autonomy、Vertica、ArcSight以及HP Operations Management松散拼湊在一起的軟件組合機器學習套件,最初名為HAVEn,是HP在2013年6月發布的。2015年,HP通過自家目前已黯然離場的云平臺Helion公有云發布了Haven。因此三月的發布等于是將這款軟件重新進行了“重發布”。
在三年的產品生命周期里,Haven并沒能得到數據科學家的青睞。KDnuggets 2016數據科學家軟件使用情況調查中,2,895位受訪者僅兩人稱在使用該軟件,O’Reilly 2016數據科學家薪資調查中甚至無人使用該軟件。更難堪的是,Haven甚至沒能上榜KDnuggets的機器學習API Top 50榜單,而甚至Ersatz、Hutoma,以及Skyttle這樣的產品都已上榜。
在分析需求比較簡單,SQL即可滿足需求的少數數據愛好者群體中,Vertica還占有著一席之地。根據DB-Engines的調查,目前Vertica在關系型數據庫領域的流行度排名第28位,與Netezza和Greenplum的表現相當,略好于Aster。在被Micro Focus接手后,預計排名很快會大幅下跌。
戴爾/EMC
戴爾在2014年收購了Statsoft并開始涉足高級分析業務,但這一舉措根本無人問津。2016年,戴爾將自己的軟件部門賣給私募投資者并黯然離場。
再見,戴爾。我們幾乎快不認識你了。
總結
以上是生活随笔為你收集整理的2016机器学习大盘点(第3篇)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学爬虫的动力是啥?那肯定就是爬美女图片了
- 下一篇: 5月Github上最热门的数据科学和机器