我是Datatist(画龙科技)的CMO董飞,
我是Datatist(畫龍科技)的CMO董飛,首先做一個自我介紹,我畢業于南開大學,曾經在北京工作過幾年。在2010年,我來到美國杜克大學讀了碩士,畢業以后留在硅谷工作,一開始是在亞馬遜做云計算的平臺,然后去了Coursera,他們是一家做在線教育的平臺,之后又在LinkedIn從事大數據架構工作。去年9月,我回國來到了上海。??
我們公司的中文名是上海畫龍信息科技,提到“畫龍”大家也許就會想到“畫龍點睛”,我們也希望我們公司的運營可以起到畫龍點睛之筆。
下面進入演講正題:
硅谷公司排名
我認為,如果把公司按規模大小來區分的話,可以分為四類:
第一類,員工數量超過10萬人以上的公司;
第二類,上市企業,員工數大概在5000~50000人左右;
第三類,預備IPO公司,員工數大概1000~5000人;
第四類, 員工數大概在100~500人不等。
??
給大家看一些典型的公司,比如說蘋果、微軟、英特爾、Oracle,這些公司到目前為止也發展了40多年了,屬于第一類里面。
這四家公司成立的時間都是很有特點的,他們的創始人,像喬布斯、比爾蓋茨,都是同一年出生的,因此,可以說年齡跟時代的機遇是綁定在一起的。
再來看第二類公司,有谷歌、Facebook、Nvidia以及Salesforce,可能大家對于后面兩個公司比較陌生。Nvidia是做顯卡的,現在市值已經超過了100億美金。可以說它也算是抓住了人工智能的風口,把GPU應用到了人工智能“三架馬車”的應用當中。???
而Salesforce則是做2B領域的。在國內,大家都說2B的風口來了,我個人覺得這里面的發展機會的確非常大,簡單來說,Salesforce就是做SaaS版的CRM的。???
接下來是Uber、Airbnb、Cloudera、Palantir。像Palantir這家公司,它是大數據領域的一個潛入者,它最新的估值已經超過了1000億美金。其低調的原因是因為它做的是政府、金融機構的生意,所以,在隱私、技術方面會刻意保持低調,我也很少見到他們會做技術宣傳的工作。Cloudera,這家公司已經成立了7、8年了,最近申請了IPO。希望它能夠取得成功。??
第四類的公司就有很多了,像Houzz,它的諧音是房屋的意思,它通過用戶上傳一些家具的照片,然后做電商的推薦工作;Stripe是做支付領域的,估值也在50億美金以上;Wish是做跨境電商的,他的創始人也是華人,主要是跟沃爾瑪和亞馬遜搶生意。
這是《華爾街日報》的排名。Airbnb最近剛剛獲到了33億美元的融資,目前的估值已經達到了310億美金。這份榜單的第一名是Uber、第二名是小米、第三名是滴滴出行、緊接著是Airbnb、Palantir,以及陸金所。在這個榜單上,中國也算是大展拳腳,前幾名有多家都是中國企業。???
新興科技技術未來發展趨勢
下面給大家看一張新興科技技術最新的趨勢圖:
有一家市場調研公司叫Gartner,這就是他們發布的截止到2015年7月,最新的一個技術走向圖。首先,可以看一下這個曲線,從一開始的井噴、爆發,然后到達一個頂點,經歷一些泡沫破滅,再后面就步入成熟期了。
最最前沿的技術有哪些?智能微塵,就是把傳感器做成像空氣微粒那么小,然后是4D打印、通用機器智能以及情境代理。而目前又有哪些技術比較火呢?區塊鏈、認知專業顧問、機器智能、軟件定義安全、自動駕駛汽車,同時這些也是從去年到今年,國內最熱門的幾個話題了。后面還有一些,像自然語言問答系統、增強現實、虛擬現實,這些應該是全球技術發展的前沿。現在機器學習是最熱的,其實也算是一個頂點,但它會不會變成一個泡沫呢?其實很多人也在討論這個問題。
大數據架構???
接下來進入第三部分,大數據架構。
???
這是一張截止到今年三月份的大數據公司分布圖,到底是在基礎架構層、分析層還是應用層,從上到下都可以找到自己的定位。 ???
我今天想簡單的給大家普及一些大數據技術的知識。剛才提到了“三架馬車”,剛好也埋下了一個伏筆,“三駕馬車”最開始是講谷歌的,講的是谷歌在業界大數據的領導地位,但是很可惜的是,谷歌并沒有開源。很多業界的小伙伴們就開始研究,特別是雅虎這邊有很多的工程師,也包括一些團隊去做了類似的系統,這就是Hadoop的起源。現在的谷歌早就淘汰了第一代系統,已經到了第二代、第三代系統。
大家可能會覺得谷歌在業界至少領先了5年吧!它現在內部開發的那些系統,跟我們外部的開源還是不太一樣。但是,畢竟開源也促進了信息的交流。我個人認為,可能也只是領先了一年(至少是在開源版本當中)。
???
Apache是一個很有生機的生態系統,這里面就會涉及到很多工具類的知識。他們搞了一個開源組,里面有形形色色,各種各樣的Logo,有很多像動物似的,有河馬、豬、蜜蜂跟大象的結合體,每個開源項目都有一個代號。
如果要做一個大數據的系統,這些數據平臺里所需要的組件,大致都會涉及到數據存儲、數據清洗,以及數據的管道跟加工的一些過程。
后面也有一系列的流程,包括數據如何分區、建立模型。其實建立模型這一塊,說得簡單一點,就是要把數據給規范化,變成數據庫里的一些結構。把一些非結構化的,原始的類型變成一些結構化的,使其可以存儲在數據庫里。
在大數據的架構當中有一個算是硅谷比較流行的框架,叫Kafka,大家要關注一下。
通過上圖可以看到,下面主要顯示的是響應的時間,我們處理這個數據也有一定的要求。我舉個例子,比如說支付寶,你付賬之后必須立即確認,這個錢我有沒有發出去,有沒有賬單。但對于微信朋友圈而言,你發了一個朋友圈之后,可以允許有幾秒鐘的更新時間,即使不能立刻看到也可以忍受。人們在不同的場景中對數據延遲的要求是不一樣的,為了適應不同的需求,它也有不同架構的選型。
除了Hadoop之外,還有一些新興的選型,在這里也是給大家拋磚引玉,比如說在框架里,還有實時計算的框架。
在平臺級有一家是屬于亞馬遜旗下的,右邊這張圖是它基礎的架構圖。基本上可以通過這個架構,一方面更好的進行拓展,另外還可以做到非常快速的訪問。
下面簡單介紹一下Spark,它來源于Flexible實驗室,這個實驗室叫IMP。強調的是,它的速度是最快的,據說是Hadoop的100倍。右邊的圖想要說明的是如果通過Hadoop來做,需要100秒做一次迭代,但如果用Spark來做,除了第一次的磁盤讀取以外,以后的迭代一次只要1秒以內。它內存的訪問速度可以說高出了一個數量級。所以,本身就有一個很好的硬件基礎,第一次要把數據從磁盤上讀出來,這個時間是少不了的。不僅可以做到批量處理、及時查詢,它還可以放在同樣一個架構上去做。這也是它為什么深受歡迎的原因。
數據驅動運營
接下來向大家介紹一些關于硅谷公司數據運營方面的實戰情況。
這個詞叫Data-driven marketing。在我們機房里,會在屏幕上顯示各種各樣的報表,看起來也很震撼。硅谷的很多公司都是喜歡這么干,你去他們的辦公室,至少每一層都會放兩個這么大的電視,這上面也很枯燥,就是放一些數字,實時地去看用戶的訪問數、宕機時間以及各種服務的情況。
哥德巴赫說過一句話,我們在廣告上的投資有一半是無用的,但問題是我不知道是哪一半。
???
這張圖跟剛才那張比較類似,但是這個主要是放在營銷領域的。現在比較流行什么?B2B的預測營銷,這是市場營銷的技術。Facebook現在為什么這么牛?他們廣告端的80%以上都是來自于手機端原生態的廣告,包括今日頭條也是我們學習的最好的例子。
在國外,做B2B領域是很容易被收購的。除了大家熟悉的設計師用的軟件之外,還有一個高收入來源,是來自于營銷部門。在硅谷創業,如果是做2B領域的,其實也是很好的一個方向,你一旦做了,巨頭就會盯上你,他也會采用收購的方式讓你退出,其實這也是一種很好的退出手段。
這是某一個數據產品當中的報表,看起來比較枯燥。其中最核心的指標是:每天的收入、每天用戶的增長量。這里面還有很多細分的東西,所以,每個組你都得制定好自己的KPI。
提到數據驅動的模式,我在這里也跟大家做一個方法論的介紹。你要是做用戶運營的優化,第一步都得先去采集用戶的數據。在這里是通過SDK潛入到對方的客戶端當中,采集到你需要的數據,進行數據分析,再生成KPI的報表,后面你還會根據用戶做多維度的分群和畫像,然后進行AD測試。比如說你把促銷的信息先放給A組的用戶,然后做一些效果的對比,后面還會有活動的管理,與用戶觸達。比如說看用戶有沒有打開這個鏈接,他訪問的頻率到了哪一步,我們會做一些跟蹤。最終的目的是為了實現ROI的提升、營銷的優化。
我們公司希望通過機器學習做一些轉化率的提升。時間有限,我就給大家看一個我們產品的邏輯圖,
從機器學習精準拉新,到數據分析、用戶畫像,然后再去做一些預測,預測購買的用戶,再通過機器學習的方式進行循環的優化。
機器學習在市場營銷里的應用。我舉一個例子,預測客戶的流失,你可以通過一些算法,像邏輯回歸、決策樹、神經網絡、支持向量機,在這里面都可以去比較他最后的效果。
最后,給大家推薦一些書籍。比如說最近比較火的《未來簡史》,它的前例是《人類簡史》,還有一本《智能時代》。如果想要關于技術方面的,可以看一下《SRE 谷歌的運維解密》,或者《大數據的處理技巧》,在市場營銷里,有兩本書值得推薦,分別是《黑客營銷,像扎克伯格一樣去戰斗》,還有《增長黑客營銷》。
總結
以上是生活随笔為你收集整理的我是Datatist(画龙科技)的CMO董飞,的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度研究 | 区块链在征信业的应用探讨:
- 下一篇: 一文读懂大数据平台——写给大数据开发初学