RDD基本转换操作:zipWithIndex、zipWithUniqueId
生活随笔
收集整理的這篇文章主要介紹了
RDD基本转换操作:zipWithIndex、zipWithUniqueId
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
zipWithIndex
def zipWithIndex(): RDD[(T, Long)]
該函數將RDD中的元素和這個元素在RDD中的ID(索引號)組合成鍵/值對。
?zipWithUniqueId
def zipWithUniqueId(): RDD[(T, Long)]
該函數將RDD中元素和一個唯一ID組合成鍵/值對,該唯一ID生成算法如下:
每個分區中第一個元素的唯一ID值為:該分區索引號,
每個分區中第N個元素的唯一ID值為:(前一個元素的唯一ID值) + (該RDD總的分區數)
看下面的例子:
?總結
以上是生活随笔為你收集整理的RDD基本转换操作:zipWithIndex、zipWithUniqueId的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spark MLlib平台的协同过滤算法
- 下一篇: 基于Spark的Als算法+自迭代+Sp