Spark2.3.0的DataFrame去哪了,DataSet是哪位?
DataSet是可以轉(zhuǎn)換的領(lǐng)域特定對(duì)象的強(qiáng)類型集合
同時(shí)使用函數(shù)或關(guān)系操作。每個(gè)數(shù)據(jù)集還有一個(gè)無類型視圖
稱為“DataFrame”,它是[[Row]]的數(shù)據(jù)集。
DataFrame也可以叫Dataset[Row],每一行的類型是Row,不解析,每一行究竟有哪些字段,各個(gè)字段又是什么類型都無從得知,只能用上面提到的getAS方法或者共性中的拿出特定字段
而Dataset中,每一行是什么類型是不一定的,在自定義了case class之后可以很自由的獲得每一行的信息
在源碼中的DataSet表示是從1.6.0開始有的。
在我是用Spark2.3.0? javaAPI定義時(shí),并未找到DataFrame,如下
并且是代碼自動(dòng)生成類型時(shí),為:DataSet<Row>
Dataset<Row> df = sqlContext.read().json("./data/json");?所以我推斷是被替換了,不過大家也不用糾結(jié),Spark的API1.6前后確實(shí)改變過多。
使用DataSet<Row>不就行了。
但是我搜索了一下DataFrame,又顯示有這個(gè)類。。。
private final class DataFrame extends Frame {final ByteBuf data;final int padding;final boolean endOfStream;DataFrame(ByteBuf data, int padding, boolean endOfStream, ChannelPromise promise) {super(promise);this.data = data;this.padding = padding;this.endOfStream = endOfStream;}@Overridevoid release(Throwable t) {super.release(t);ReferenceCountUtil.safeRelease(data);}@Overridevoid send(ChannelHandlerContext ctx, int streamId) {writeData(ctx, streamId, data, padding, endOfStream, promise);}}不行了,看不懂。。。
不甘心的前往官網(wǎng)的API。在2.3.0中確實(shí)沒有DataFrame這個(gè)類
前往1.6.0API,果然不出所料
然后我們?cè)赟cala中定義一下
val frame: DataFrame = ss.read.format("json").load("./data/json")可以看出返回類型為DataFeame ,并且當(dāng)你點(diǎn)進(jìn)DataFrame時(shí)
OK!!!溜了溜了!!!?
所以我的結(jié)論就是,2.3.0的javaAPI中使用DataSet代替了DataFrame。
?
超強(qiáng)干貨來襲 云風(fēng)專訪:近40年碼齡,通宵達(dá)旦的技術(shù)人生總結(jié)
以上是生活随笔為你收集整理的Spark2.3.0的DataFrame去哪了,DataSet是哪位?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spark _20 _Spark_Shu
- 下一篇: Spark _21 _SparkSQL介