** ❃博主首页 :**
「码到三十五」
,同名公众号 :「码到三十五」,wx号 : 「liwu0213」
☠博主专栏 :
<源码解读>
<面试攻关>
♝博主的话 :搬的每块砖,皆为峰峦之基;公众号搜索「码到三十五」关注这个爱发技术干货的coder,一起筑基
在处理Excel文件时,Java开发者经常会面临多种选择,其中Apache POI和easyExcel是两个非常受欢迎的选择。这两个库都提供了强大的Excel文件处理功能,但在性能、内存使用、API设计以及扩展性方面有所不同。本文将深入分析Apache POI和easyExcel在导入导出Excel文件时的技术特点和使用体验。
目录
一、Apache POI:全面但重量级的解决方案
- Apache POI是一个历史悠久且功能全面的开源项目,用于处理Microsoft Office格式文件,包括Excel。它提供了对Excel文件读写操作的全面支持,在处理Excel文件时,POI通过HSSF和XSSF两个子项目分别支持.xls和.xlsx格式。HSSF针对的是旧版的二进制Excel格式,而XSSF则是为新版的基于XML的Excel格式设计的。
- 在导入Excel文件时,Apache POI会将整个文件加载到内存中,然后提供API来访问和操作文件中的各个元素,如单元格、行、列等。这种处理方式在处理小型文件时非常有效,因为它允许开发者以任意方式访问文件内容。然而,随着文件大小的增加,内存消耗也会急剧增长,这可能导致性能下降甚至内存溢出。
- 导出Excel文件时,Apache POI同样需要将所有数据加载到内存中,然后一次性写入文件。这种方式在处理大量数据时可能会变得非常缓慢,并且需要大量的内存资源。
1.1 POI实现读取excel
下面是一演示如何使用 Apache POI 导入(读取)和导出(写入)Excel 文件(.xlsx 格式)
<dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>5.2.0</version></dependency><dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>5.2.0</version></dependency>
开一个Excel文件、读取数据,并将内容打印到控制台上:
importorg.apache.poi.ss.usermodel.*;importorg.apache.poi.xssf.usermodel.XSSFWorkbook;importjava.io.File;importjava.io.FileInputStream;importjava.io.IOException;publicclassExcelReaderExample{publicstaticvoidmain(String[] args){// 指定要读取的Excel文件路径 String filePath ="path/to/your/excel/file.xlsx";// 使用FileInputStream打开文件 try(FileInputStream fis =newFileInputStream(newFile(filePath))){// 创建工作簿对象 Workbook workbook =newXSSFWorkbook(fis);// 获取第一个工作表(Sheet),索引从0开始 Sheet sheet = workbook.getSheetAt(0);// 遍历工作表的每一行 for(Row row : sheet){// 遍历行中的每一个单元格 for(Cell cell : row){// 读取单元格内容并打印到控制台 System.out.print(getCellValue(cell)+"\t");}// 每读取完一行后换行 System.out.println();}// 工作完成,关闭工作簿(实际上在这个例子中不需要,因为使用了try-with-resources) // workbook.close(); }catch(IOException e){// 处理文件读取过程中可能出现的异常
e.printStackTrace();}}// 辅助方法:根据单元格类型获取单元格的值 privatestaticStringgetCellValue(Cell cell){DataFormatter formatter =newDataFormatter();// 创建一个格式化对象,用于处理各种数据类型 return formatter.formatCellValue(cell);// 返回格式化后的单元格内容 }}
请注意,getCellValue方法使用DataFormatter类来确保无论单元格包含何种类型的数据(如数字、日期或文本),都能以合适的格式返回其字符串表示形式。
1.2 poi实现写入excel
当使用Apache POI写入.xlsx格式的Excel文件时,您需要创建一个XSSFWorkbook对象来表示整个工作簿,然后在其中创建XSSFSheet对象来表示工作表。接下来,您可以在工作表中创建行和单元格,并设置它们的值。最后,将工作簿写入到文件系统中。
importorg.apache.poi.ss.usermodel.*;importorg.apache.poi.xssf.usermodel.XSSFWorkbook;importjava.io.FileOutputStream;importjava.io.IOException;publicclassExcelWriterExample{publicstaticvoidmain(String[] args){// 创建一个新的工作簿 Workbook workbook =newXSSFWorkbook();// 创建一个工作表(Sheet),命名为"MySheet" Sheet sheet = workbook.createSheet("MySheet");// 在工作表中创建行(从0开始计数) Row row = sheet.createRow(0);// 在行中创建单元格(从0开始计数),并设置值 Cell cell = row.createCell(0);
cell.setCellValue("Hello");// 创建另一个单元格,并设置值 Cell cell2 = row.createCell(1);
cell2.setCellValue("World");// 也可以链式地创建行和单元格
sheet.createRow(1).createCell(0).setCellValue("Apache");
sheet.getRow(1).createCell(1).setCellValue("POI");// 写入到文件系统 try(FileOutputStream fos =newFileOutputStream("path/to/your/excel/file.xlsx")){
workbook.write(fos);}catch(IOException e){
e.printStackTrace();}// 关闭工作簿(在这个例子中不需要,因为使用了try-with-resources) // workbook.close(); System.out.println("Excel file written successfully.");}}
二、easyExcel:轻量级且高效的Excel处理工具
- easyExcel是阿里巴巴开源的一个轻量级且高效的Excel处理框架。它针对大型Excel文件的处理进行了优化,采用了流式处理的方式,允许开发者逐行读写数据,从而大大降低了内存消耗。在导入Excel文件时,easyExcel使用了基于事件驱动的模型。它不会将整个文件加载到内存中,而是逐行解析文件,通过回调函数将每行的数据传递给开发者进行处理。
- EasyExcel 是在在POI的解析引擎基础上改进的,但并没有完全重写 Apache POI 的整个解析引擎,特别是对于 XLSX 文件格式(即 Excel 2007 及以上版本所使用的格式,POI 中对应的是 XSSF 实现),它仍然是基于 POI 的一些底层结构和功能。但是,EasyExcel 在 POI 的基础上进行了大量的优化和重构,以实现更高的性能和更低的内存消耗。
2.1 EasyExcel 做的优化
EasyExcel 的核心改进之一是在处理大型数据时采用了“读写分离”和“懒加载”的策略。具体来说,EasyExcel 做了以下几点优化:
- 按需解析:EasyExcel 不会一次性将整个文件加载到内存中,而是按需读取和解析数据,通过滑动窗口的方式只处理当前需要的数据行,从而大大降低了内存占用。
- 写入优化:在写入数据时,EasyExcel 同样采用了流式写入的策略,将数据分批次写入磁盘,避免了大数据量时的内存溢出问题。
- 内存管理:EasyExcel 对内存的使用进行了精细化的管理,通过对象池、缓存优化等技术减少了内存分配和垃圾回收的频率,提升了处理速度。
- 模型映射:通过注解和反射机制,EasyExcel 可以将 Excel 数据行直接映射为 Java 对象,简化了数据转换的过程。
- 异常处理:EasyExcel 提供了更加友好的异常处理机制,帮助开发者快速定位和处理读写过程中可能出现的问题。
- 扩展性:EasyExcel 设计了更加灵活和可扩展的架构,允许开发者通过实现特定的接口来定制和扩展功能。
尽管 EasyExcel 在 POI 的基础上进行了很多优化,但它仍然依赖于 POI 的一些核心组件来处理 XLSX 文件的底层细节。因此,在使用 EasyExcel 时,仍然可以看到 POI 的影子,尤其是在处理一些复杂的 Excel 特性时。不过,对于大多数常见的 Excel 读写需求,EasyExcel 提供了更加高效和简洁的解决方案。
2.2 easyExcel实现批量读取excel
将 easyExcel 的依赖添加到了你的项目中。如果使用 Maven,可以在 pom.xml 文件中添加如下依赖:
<dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>最新版本</version><!-- 请替换为实际的最新版本号 --></dependency>
使用easyExcel的读取API,并指定要读取的sheet索引(从0开始计数,第二个sheet的索引为1)。
实现一个监听器来处理读取到的数据行,并在这个监听器中将数据分批写入数据库。
importcom.alibaba.excel.EasyExcel;importcom.alibaba.excel.context.AnalysisContext;importcom.alibaba.excel.event.AnalysisEventListener;importcom.alibaba.excel.read.builder.ExcelReaderBuilder;importcom.alibaba.excel.read.builder.ExcelReaderSheetBuilder;importcom.alibaba.excel.read.metadata.ReadSheet;importjava.util.ArrayList;importjava.util.List;// 数据模型类 classDataModel{privateString column1;privateString column2;// ... 其他字段 // 省略getter和setter方法 }// 读取Excel并写入数据库的类 publicclassExcelReaderToDB{// 模拟的批量写入数据库方法 privatevoidbatchInsertToDB(List<DataModel> dataList){// 这里应该是将数据真正写入数据库的代码 // 这里仅做打印输出模拟 System.out.println("Inserting batch of "+ dataList.size()+" rows to DB...");for(DataModel data : dataList){System.out.println(data);}}// 读取Excel文件的方法 publicvoidreadExcelFile(String filePath){// 第二个sheet的索引为1 int sheetIndex =1;// 读取Excel文件 ExcelReaderBuilder readerBuilder =EasyExcel.read(filePath);ExcelReaderSheetBuilder sheetBuilder = readerBuilder.sheet(sheetIndex);// 读取数据并注册监听器
sheetBuilder.registerReadListener(newAnalysisEventListener<DataModel>(){// 用来缓存读取到的数据 privateList<DataModel> cachedDataList =newArrayList<>();// 读取每行数据时会调用此方法 @Overridepublicvoidinvoke(DataModel dataModel,AnalysisContext analysisContext){
cachedDataList.add(dataModel);// 当读取到一定数量的数据时,可以执行批量写入数据库的操作 // 这里假设我们每读取100行数据就写入一次数据库 if(cachedDataList.size()>=100){batchInsertToDB(cachedDataList);// 清空缓存
cachedDataList.clear();}}// 所有数据解析完成后会调用此方法 @OverridepublicvoiddoAfterAllAnalysed(AnalysisContext analysisContext){// 将剩余的数据写入数据库 if(!cachedDataList.isEmpty()){batchInsertToDB(cachedDataList);
cachedDataList.clear();}}});// 开始读取
sheetBuilder.build();
readerBuilder.build().read();}publicstaticvoidmain(String[] args){String filePath ="path/to/your/excel/file.xlsx";ExcelReaderToDB excelReader =newExcelReaderToDB();
excelReader.readExcelFile(filePath);}}
2.3 easyExcel实现写入excel
定义一个模型类来表示你要写入的数据。创建一个数据模型类来映射Excel表格中的数据列,并使用easyExcel的注解来标识表头和字段映射关系。
编写一个方法来创建Excel写入对象,并填充数据到Excel文件中.
importcom.alibaba.excel.EasyExcel;importcom.alibaba.excel.write.metadata.WriteSheet;importcom.alibaba.excel.annotation.ExcelProperty;importjava.util.ArrayList;importjava.util.List;// 数据模型类,使用注解标识表头和字段映射关系 publicclassDataModel{// 表头名称与字段的映射 @ExcelProperty("姓名")privateString name;@ExcelProperty("年龄")privateInteger age;// 省略getter和setter方法 // 构造函数 publicDataModel(String name,Integer age){this.name = name;this.age = age;}}// 导出数据到Excel的类 publicclassExcelExporter{// 模拟数据 privateList<DataModel>getData(){List<DataModel> list =newArrayList<>();
list.add(newDataModel("张三",20));
list.add(newDataModel("李四",22));
list.add(newDataModel("王五",24));return list;}// 导出数据到Excel文件 publicvoidexportToExcel(String filePath){// 创建写入对象 EasyExcel.write(filePath,DataModel.class).sheet("Sheet1")// 设置sheet名称 .doWrite(getData());// 写入数据 }publicstaticvoidmain(String[] args){String filePath ="path/to/your/excel/file.xlsx";ExcelExporter exporter =newExcelExporter();
exporter.exportToExcel(filePath);}}
三、API设计与易用性
Apache POI提供了丰富且灵活的API,允许开发者以多种方式操作Excel文件。然而,由于其功能全面且复杂,API的学习曲线相对较陡,对于初学者来说可能需要一些时间来熟悉。
相比之下,easyExcel的API设计更加简洁和直观。它提供了针对常见任务的简化方法,使得开发者能够更快速地完成任务。此外,easyExcel还支持自定义读写策略、异步处理、数据校验等高级特性,这些功能都通过简洁的API暴露给开发者,提高了易用性。
四、总结
Apache POI和easyExcel都是优秀的Java库,用于处理Excel文件。Apache POI以其全面性和灵活性著称,提供了对Excel文件的全面支持。然而,在处理大型文件时,它可能会遇到性能问题和内存消耗过高的情况。相比之下,easyExcel则针对大型文件的处理进行了优化,提供了更高的性能和更低的内存消耗。此外,easyExcel的API设计更加简洁和易用,使得开发者能够更高效地完成任务。
在选择使用哪个库时,开发者应根据项目需求和文件大小来决定。如果项目需要处理大型Excel文件,并且对性能和内存消耗有较高要求,那么easyExcel可能是一个更好的选择。而如果项目需要全面的Excel文件处理功能,并且对性能要求不高,那么Apache POI也是一个不错的选择。
关注公众号获取更多技术干货 !
版权归原作者 码到三十五 所有, 如有侵权,请联系我们删除。