使用Apache Spark处理Excel文件的方法

前言

在日常的工作中，表格内的工具是非常方便的x，但是当表格变得非常多的时候，就需要一些特定的处理。Excel作为功能强大的数据处理软件，广泛应用于各行各业，从企业管理到数据分析，可谓无处不在。然而，面对大型且复杂的数据，Excel的处理能力可能力不从心。

对此，我们可借助Apache Spark这一分布式计算框架，凭借其强大的计算与数据处理能力，快速有效地处理Excel数据。这些数据进行一个分析，整理，筛选，排序。分析整理有用的内容。

操作

创建一个spark项目，在IntelliJ IDEA中创建Spark项目时，默认的目录结构如下：

project-root/
│
├── src/
│ ├── main/
│ │ ├── java/
│ │ │ └── (Java source files)
│ │ └── scala/
│ │ └── (Scala source files)
│ └── test/
│ ├── java/
│ │ └── (Test Java source files)
│ └── scala/
│ └── (Test Scala source files)
├── resources/
│ └── (Resource files)
└── target/
└── (Compiled output and build artifacts)

导入包

在build.sbt中添加操作文件的包

libraryDependencies ++= Seq(
\”org.apache.spark\” %% \”spark-core\” % sparkVersion,
\”org.apache.spark\” %% \”spark-sql\” % sparkVersion,
\”org.apache.spark\” %% \”spark-mllib\” % sparkVersion,
\”org.apache.spark\” %% \”spark-streaming\” % sparkVersion,
\”com.norbitltd\” %% \”spoiwo_2.12\” % \”1.4.1\”,
\”com.crealytics\” %% \”spark-excel\” % \”0.13.7\”,
\”com.monitorjbl\” %% \”xlsx-streamer\” % \”2.1.0\”
)

测试数据

name

age

Mic

Andy

Steven

首先

使用Spark读取Excel文件十分简便。只需在DataFrame API中指定文件路径及格式，Spark即可自动导入Excel文件并将其转成DataFrame，进而展开数据处理和分析。

代码示例

Spark不但提供多样的数据处理方式，更在DataFrame API中支持筛选、聚合和排序等操作。此外，内置丰富的数据处理函数和操作符使处理Excel数据更为便捷。

package com.example.spark
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
object SparkTest {
def main(args: Array[String]): Unit = {
//scala版本
val sparkConf = new SparkConf()
sparkConf.setMaster(\”local\”) //本地单线程运行
sparkConf.setAppName(\”testJob\”)
// val sc = new SparkContext(sparkConf)
val spark = SparkSession.builder().config(sparkConf)
.appName(\”Excel Demo\”)
.getOrCreate()
// 读取 Excel 文件
val df = spark.read
.format(\”com.crealytics.spark.excel\”)
.option(\”dataAddress\”, \”\’Sheet2\’!A1:B2\”) // 可选,设置选择数据区域例如 A1:C2。
.option(\”useHeader\”, \”false\”) // 必须，是否使用表头，false的话自己命名表头（_c0）,true则第一行为表头
.option(\”treatEmptyValuesAsNulls\”, \”true\”) // 可选, 是否将空的单元格设置为null ,如果不设置为null 遇见空单元格会报错默认t: true
.option(\”inferSchema\”, \”true\”) // 可选, default: false
//.option(\”addColorColumns\”, \”true\”) // 可选, default: false
//.option(\”timestampFormat\”, \”yyyy-mm-dd hh:mm:ss\”) // 可选, default: yyyy-mm-dd hh:mm:ss[.fffffffff]
//.option(\”excerptSize\”, 6) // 可选, default: 10. If set and if schema inferred, number of rows to infer schema from
//.option(\”workbookPassword\”, \”pass\”) // 可选, default None. Requires unlimited strength JCE for older JVMs====
//.option(\”maxRowsInMemory\”, 20) // 可选, default None. If set, uses a streaming reader which can help with big files====
.schema(schema) // 可选, default: Either inferred schema, or all columns are Strings
// .option(\”header\”, \”true\”)
.load(\”path/to/excel/file.xlsx\”)
// 显示 DataFrame 的内容
df.show()
// +——-+—+
// | name|age|
// +——-+—+
// | Mic| 1|
// | Andy| 3|
// | Steven| 1|
// +——-+—+
// 将 DataFrame 写入 Excel 文件
df.write
.format(\”com.crealytics.spark.excel\”)
.option(\”dataAddress\”, \”\’Sheet\’!A1:B2\”)
.option(\”useHeader\”, \”true\”)
//.option(\”dateFormat\”, \”yy-mmm-d\”) // Optional, default: yy-m-d h:mm
//.option(\”timestampFormat\”, \”mm-dd-yyyy hh:mm:ss\”) // Optional, default: yyyy-mm-dd hh:mm:ss.000
.mode(\”append\”) // Optional, default: overwrite.
.option(\”header\”, \”true\”)
.save(\”path/to/save/excel/file.xlsx\”)
}
}