當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Spark2.3.0的DataFrame去哪了，DataSet是哪位？

發(fā)布時(shí)間：2024/2/28 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 Spark2.3.0的DataFrame去哪了，DataSet是哪位？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

DataSet是可以轉(zhuǎn)換的領(lǐng)域特定對(duì)象的強(qiáng)類型集合

同時(shí)使用函數(shù)或關(guān)系操作。每個(gè)數(shù)據(jù)集還有一個(gè)無類型視圖

稱為“DataFrame”，它是[[Row]]的數(shù)據(jù)集。

DataFrame也可以叫Dataset[Row],每一行的類型是Row，不解析，每一行究竟有哪些字段，各個(gè)字段又是什么類型都無從得知，只能用上面提到的getAS方法或者共性中的拿出特定字段

而Dataset中，每一行是什么類型是不一定的，在自定義了case class之后可以很自由的獲得每一行的信息

在源碼中的DataSet表示是從1.6.0開始有的。

在我是用Spark2.3.0? javaAPI定義時(shí)，并未找到DataFrame,如下

并且是代碼自動(dòng)生成類型時(shí)，為：DataSet<Row>

Dataset<Row> df = sqlContext.read().json("./data/json");

?所以我推斷是被替換了，不過大家也不用糾結(jié)，Spark的API1.6前后確實(shí)改變過多。

使用DataSet<Row>不就行了。

但是我搜索了一下DataFrame，又顯示有這個(gè)類。。。

private final class DataFrame extends Frame {final ByteBuf data;final int padding;final boolean endOfStream;DataFrame(ByteBuf data, int padding, boolean endOfStream, ChannelPromise promise) {super(promise);this.data = data;this.padding = padding;this.endOfStream = endOfStream;}@Overridevoid release(Throwable t) {super.release(t);ReferenceCountUtil.safeRelease(data);}@Overridevoid send(ChannelHandlerContext ctx, int streamId) {writeData(ctx, streamId, data, padding, endOfStream, promise);}}

不行了，看不懂。。。

不甘心的前往官網(wǎng)的API。在2.3.0中確實(shí)沒有DataFrame這個(gè)類

前往1.6.0API，果然不出所料

然后我們?cè)赟cala中定義一下

val frame: DataFrame = ss.read.format("json").load("./data/json")

可以看出返回類型為DataFeame ，并且當(dāng)你點(diǎn)進(jìn)DataFrame時(shí)

OK！！！溜了溜了！！！?

所以我的結(jié)論就是，2.3.0的javaAPI中使用DataSet代替了DataFrame。

超強(qiáng)干貨來襲云風(fēng)專訪：近40年碼齡，通宵達(dá)旦的技術(shù)人生

總結(jié)

以上是生活随笔為你收集整理的Spark2.3.0的DataFrame去哪了，DataSet是哪位？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Spark _20 _Spark_Shu
下一篇： Spark _21 _SparkSQL介