sparkstreaming(1)——实战
在spark的一開篇(可以見我的spark(1)這篇博客),我們就談到了sparkstreaming可以快速的處理數據流。
我們可以從sparkstreaming處理新的流式數據再傳給sparksql進行計算,或者spark生態中的MLlib去進行數據的實時更新進行機器學習等。
類比于spark-core和sparksql,寫sparkstreaming代碼也要創建自己的上下文Streaming Context(通過spark context來獲取streaming context,并且還要指定一個時間間隔),通過Streaming Context獲取到的數據可以稱為DStreams模型,如果一個Streaming Context已經開啟,那么就不允許新的DStream建立,并且當Streaming Context停止以后,就不允許重新啟動,DStreams模型是由一串連續的RDD構成,每個RDD都有前面定義的時間間隔內的數據,所以操作DStreams里的數據其實也是操作RDD。
處理DSream的邏輯一定要在開啟Streaming Context之前寫完,一旦開啟就不能添加新的邏輯方式。
我們在python中寫好如下代碼:
在linux下開啟10008端口服務
隨便輸入一些字符串觀察pycharm中的結果:
可以見到,數據流進來并被spark streaming處理
總結
以上是生活随笔為你收集整理的sparkstreaming(1)——实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sparksql(3)——datafra
- 下一篇: sparkstreaming(2)——u