0


Dataset<Row>序列化并进行存储

java中的数据embedding是id和features,分别是id编号及embedding(array[float]形式,但格式似乎无法序列化,无法序列化则不能保存),如下详情,

root
|-- id: integer (nullable = false)
|-- features: array (nullable = true)
| |-- element: float (containsNull = false)

For deep learning QQ Second Group 629530787

这个Dataset类似于dataframe,或者说俩是一样的,当然和py中的也是一样的,但py中的可以直接存储,而java做不到。

报错如下:

CSV data source does not support array<float> data type(保存csv出错)

Text data source supports only a single column, and you have 2 columns.(保存text出错)

直接保存为CSV出现如下情况
0org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@de0c088a10org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@42842f3320org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@9b35950f1org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@fc9c6d3111org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@5a1a55a721org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@1d4b909d2org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@854f23d2
要么就是报错,

toJavaRDD().map(row->row.getAs("id").toString()+","+Arrays.toString((long[]) row.getAs("features")))
                .saveAsTextFile(outDir+"/userFeatures")

class scala.collection.mutable.WrappedArray$ofRef cannot be cast to class [J (scala.collection.mutable.WrappedArray$ofRef is in unnamed module of loader 'app'; [J is in module java.base of loader 'bootstrap')

真是心累啊。

TNND,经过我的搜索,发现都是很难做的,很麻烦的,我TM直接一个函数解决了。如下:

toDF().withColumn("features",concat_ws(",",col("features"))).write().csv(outDir+"/userFeatures");

关键函数concat_ws,参考博文。保存的数据也是正常的。

标签: java dataframe write

本文转载自: https://blog.csdn.net/SPESEG/article/details/127336297
版权归原作者 小李飞刀李寻欢 所有, 如有侵权,请联系我们删除。

“Dataset<Row>序列化并进行存储”的评论:

还没有评论