java中的数据embedding是id和features,分别是id编号及embedding(array[float]形式,但格式似乎无法序列化,无法序列化则不能保存),如下详情,
root
|-- id: integer (nullable = false)
|-- features: array (nullable = true)
| |-- element: float (containsNull = false)
For deep learning QQ Second Group 629530787
这个Dataset类似于dataframe,或者说俩是一样的,当然和py中的也是一样的,但py中的可以直接存储,而java做不到。
报错如下:
CSV data source does not support array<float> data type(保存csv出错)
Text data source supports only a single column, and you have 2 columns.(保存text出错)
直接保存为CSV出现如下情况
0org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@de0c088a10org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@42842f3320org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@9b35950f1org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@fc9c6d3111org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@5a1a55a721org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@1d4b909d2org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@854f23d2
要么就是报错,
toJavaRDD().map(row->row.getAs("id").toString()+","+Arrays.toString((long[]) row.getAs("features")))
.saveAsTextFile(outDir+"/userFeatures")
class scala.collection.mutable.WrappedArray$ofRef cannot be cast to class [J (scala.collection.mutable.WrappedArray$ofRef is in unnamed module of loader 'app'; [J is in module java.base of loader 'bootstrap')
真是心累啊。
TNND,经过我的搜索,发现都是很难做的,很麻烦的,我TM直接一个函数解决了。如下:
toDF().withColumn("features",concat_ws(",",col("features"))).write().csv(outDir+"/userFeatures");
关键函数concat_ws,参考博文。保存的数据也是正常的。
版权归原作者 小李飞刀李寻欢 所有, 如有侵权,请联系我们删除。