Dataset＜Row＞序列化并进行存储

java中的数据embedding是id和features，分别是id编号及embedding（array[float]形式，但格式似乎无法序列化，无法序列化则不能保存），如下详情，

root
|-- id: integer (nullable = false)
|-- features: array (nullable = true)
| |-- element: float (containsNull = false)

For deep learning QQ Second Group 629530787

这个Dataset类似于dataframe，或者说俩是一样的，当然和py中的也是一样的，但py中的可以直接存储，而java做不到。

报错如下：

CSV data source does not support array<float> data type（保存csv出错）

Text data source supports only a single column, and you have 2 columns.(保存text出错)

直接保存为CSV出现如下情况
0org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@de0c088a10org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@42842f3320org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@9b35950f1org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@fc9c6d3111org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@5a1a55a721org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@1d4b909d2org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@854f23d2
要么就是报错，

toJavaRDD().map(row->row.getAs("id").toString()+","+Arrays.toString((long[]) row.getAs("features")))
                .saveAsTextFile(outDir+"/userFeatures")

class scala.collection.mutable.WrappedArray$ofRef cannot be cast to class [J (scala.collection.mutable.WrappedArray$ofRef is in unnamed module of loader 'app'; [J is in module java.base of loader 'bootstrap')

真是心累啊。

TNND,经过我的搜索，发现都是很难做的，很麻烦的，我TM直接一个函数解决了。如下：

toDF().withColumn("features",concat_ws(",",col("features"))).write().csv(outDir+"/userFeatures");

关键函数concat_ws，参考博文。保存的数据也是正常的。

标签： java dataframe write

本文转载自: https://blog.csdn.net/SPESEG/article/details/127336297
版权归原作者 小李飞刀李寻欢 所有，如有侵权，请联系我们删除。

Dataset＜Row＞序列化并进行存储

发表评论

“Dataset＜Row＞序列化并进行存储”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航