0


spark3.3.x处理excel数据

环境:
spark3.3.x
scala2.12.x
引用:
spark-shell --jars spark-excel_2.12-3.3.1_0.18.5.jar
或项目里配置pom.xml

<!-- https://mvnrepository.com/artifact/com.crealytics/spark-excel --><dependency><groupId>com.crealytics</groupId><artifactId>spark-excel_2.12</artifactId><version>3.3.1_0.18.5</version></dependency>

代码:
1、直接使用excel文件第一行作为schema

val df = spark.read
     .format("com.crealytics.spark.excel")//     .format("excel") // 该版本的包直接写"excel"也可以.option("header","true")// 该版本的包将useHeader改成了header.load(filePath)

2、使用自定义schema(该方法如果excel文件第一行不是所需数据,需手动限制读取的数据范围)

// 自定义schemaval schema = StructType(List(
    StructField("uid", StringType, nullable =true),
    StructField("name", StringType, nullable =true)))
val df = spark.read
     .format("com.crealytics.spark.excel")//     .format("excel") // 该版本的包直接写"excel"也可以.option("header","false")// 使用自定义schema,所以设置为false.option("dataAddress","'Sheet1'!A2:B2")// 限制读取的数据范围(也可以不加:B2就是取从A列往后的所有列).schema(schema).load(filePath)

ps:刚开始用的3.3.3_0.20.1这个版本的不可用,具体报啥错忘了,降到3.3.1_0.18.5该版本正常

标签: spark excel

本文转载自: https://blog.csdn.net/jkllb123/article/details/134039874
版权归原作者 就发个快递 所有, 如有侵权,请联系我们删除。

“spark3.3.x处理excel数据”的评论:

还没有评论