入门 | 创建批处理服务

您将构建什么

您将构建一个服务，该服务从 CSV 电子表格导入数据，使用自定义代码对其进行转换，并将最终结果存储在数据库中。

你需要什么

大约 15 分钟
一个喜欢的文本编辑器或 IDE
Java 17 或更高版本
Gradle 7.5+ 或 Maven 3.5+
您还可以将代码直接导入到您的 IDE 中

如何完成本指南

与大多数 Spring 入门指南一样，您可以从头开始并完成每个步骤，也可以跳过您已熟悉的基本设置步骤。无论哪种方式，您最终都会得到可工作的代码。

要从头开始，请转到从 Spring Initializr 开始。

要跳过基础知识，请执行以下操作

下载并解压本指南的源存储库，或者使用Git克隆它：git clone https://github.com/spring-guides/gs-batch-processing.git
进入gs-batch-processing/initial
跳到业务数据。

完成时，您可以对照gs-batch-processing/complete中的代码检查结果。

从 Spring Initializr 开始

您可以使用此预初始化项目并单击“生成”以下载 ZIP 文件。此项目已配置为符合本教程中的示例。

手动初始化项目

导航到 https://start.spring.io。此服务会为您拉取应用程序所需的所有依赖项，并为您完成大部分设置。
选择 Gradle 或 Maven 以及您想要使用的语言。本指南假设您选择了 Java。
单击依赖项并选择Spring Batch和HyperSQL Database。
单击生成。
下载生成的 ZIP 文件，它是一个已根据您的选择配置的应用程序存档。

如果您的 IDE 集成了 Spring Initializr，您可以从 IDE 中完成此过程。

您还可以从 GitHub fork 项目，并在您的 IDE 或其他编辑器中打开它。

业务数据

通常，您的客户或业务分析师会提供一个电子表格。对于这个简单的示例，您可以在src/main/resources/sample-data.csv中找到一些虚构的数据

Jill,Doe
Joe,Doe
Justin,Doe
Jane,Doe
John,Doe

此电子表格的每一行都包含一个名字和一个姓氏，用逗号分隔。这是一种相当常见的模式，Spring 可以无需自定义地处理。

接下来，您需要编写一个 SQL 脚本来创建一个表来存储数据。您可以在src/main/resources/schema-all.sql中找到这样的脚本

DROP TABLE people IF EXISTS;

CREATE TABLE people  (
    person_id BIGINT IDENTITY NOT NULL PRIMARY KEY,
    first_name VARCHAR(20),
    last_name VARCHAR(20)
);

Spring Boot 在启动期间会自动运行schema-@@platform@@.sql。-all是所有平台的默认值。

创建业务类

现在您可以看到数据输入和输出的格式，您可以编写代码来表示一行数据，如下面的示例（来自src/main/java/com/example/batchprocessing/Person.java）所示

package com.example.batchprocessing;

public record Person(String firstName, String lastName) {

}

您可以通过构造函数使用名字和姓氏实例化Person记录。

创建中间处理器

批处理中常见的范例是摄取数据，对其进行转换，然后将其输出到其他地方。在这里，您需要编写一个简单的转换器，将名称转换为大写。以下列表（来自src/main/java/com/example/batchprocessing/PersonItemProcessor.java）显示了如何执行此操作

package com.example.batchprocessing;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import org.springframework.batch.infrastructure.item.ItemProcessor;

public class PersonItemProcessor implements ItemProcessor<Person, Person> {

  private static final Logger log = LoggerFactory.getLogger(PersonItemProcessor.class);

  @Override
  public Person process(final Person person) {
    final String firstName = person.firstName().toUpperCase();
    final String lastName = person.lastName().toUpperCase();

    final Person transformedPerson = new Person(firstName, lastName);

    log.info("Converting ({}) into ({})", person, transformedPerson);

    return transformedPerson;
  }

}

PersonItemProcessor实现了 Spring Batch 的ItemProcessor接口。这使得将代码连接到您将在本指南后面定义的批处理作业变得容易。根据接口，您会收到一个传入的Person对象，然后将其转换为大写的Person。

输入和输出类型不必相同。事实上，在读取一个数据源之后，有时应用程序的数据流需要不同的数据类型。

组合批处理作业

现在您需要组合实际的批处理作业。Spring Batch 提供了许多实用程序类，减少了编写自定义代码的需求。相反，您可以专注于业务逻辑。

要配置您的作业，您必须首先创建一个 Spring @Configuration类，如src/main/java/com/example/batchprocessing/BatchConfiguration.java中的以下示例所示。此示例使用基于内存的数据库，这意味着当它完成时，数据将消失。现在将以下 bean 添加到您的BatchConfiguration类中，以定义一个读取器、一个处理器和一个写入器

@Bean
public FlatFileItemReader<Person> reader() {
  return new FlatFileItemReaderBuilder<Person>()
    .name("personItemReader")
    .resource(new ClassPathResource("sample-data.csv"))
    .delimited()
    .names("firstName", "lastName")
    .targetType(Person.class)
    .build();
}

@Bean
public PersonItemProcessor processor() {
  return new PersonItemProcessor();
}

@Bean
public JdbcBatchItemWriter<Person> writer(DataSource dataSource) {
  return new JdbcBatchItemWriterBuilder<Person>()
    .sql("INSERT INTO people (first_name, last_name) VALUES (:firstName, :lastName)")
    .dataSource(dataSource)
    .beanMapped()
    .build();
}

第一段代码定义了输入、处理器和输出。

reader()创建了一个ItemReader。它查找名为sample-data.csv的文件，并解析每个行项目，其中包含足够的信息以将其转换为Person。
processor()创建了您之前定义的PersonItemProcessor的一个实例，旨在将数据转换为大写。
writer(DataSource)创建了一个ItemWriter。这个写入器面向 JDBC 目标，并自动获取由 Spring Boot 创建的DataSource。它包含插入单个Person所需的 SQL 语句，由 Java 记录组件驱动。

最后一段（来自src/main/java/com/example/batchprocessing/BatchConfiguration.java）显示了实际的作业配置

@Bean
public Job importUserJob(JobRepository jobRepository, Step step1, JobCompletionNotificationListener listener) {
  return new JobBuilder(jobRepository)
    .listener(listener)
    .start(step1)
    .build();
}

@Bean
public Step step1(JobRepository jobRepository, DataSourceTransactionManager transactionManager,
          FlatFileItemReader<Person> reader, PersonItemProcessor processor, JdbcBatchItemWriter<Person> writer) {
  return new StepBuilder(jobRepository)
    .<Person, Person>chunk(3)
          .transactionManager(transactionManager)
    .reader(reader)
    .processor(processor)
    .writer(writer)
    .build();
}

第一个方法定义作业，第二个方法定义单个步骤。作业由步骤构建，其中每个步骤都可以包含一个读取器、一个处理器和一个写入器。

然后您列出每个步骤（尽管此作业只有一个步骤）。作业结束，Java API 生成了一个完美配置的作业。

在步骤定义中，您定义每次写入多少数据。在这种情况下，它每次写入最多三条记录。接下来，您通过使用之前注入的 bean 来配置读取器、处理器和写入器。

chunk()以<Person,Person>为前缀，因为它是一个泛型方法。这表示每个“块”处理的输入和输出类型，并与ItemReader<Person>和ItemWriter<Person>对齐。

批处理配置的最后一部分是获取作业完成通知的方式。以下示例（来自src/main/java/com/example/batchprocessing/JobCompletionNotificationListener.java）显示了这样一个类

package com.example.batchprocessing;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import org.springframework.batch.core.BatchStatus;
import org.springframework.batch.core.job.JobExecution;
import org.springframework.batch.core.listener.JobExecutionListener;
import org.springframework.jdbc.core.DataClassRowMapper;
import org.springframework.jdbc.core.JdbcTemplate;
import org.springframework.stereotype.Component;

@Component
public class JobCompletionNotificationListener implements JobExecutionListener {

  private static final Logger log = LoggerFactory.getLogger(JobCompletionNotificationListener.class);

  private final JdbcTemplate jdbcTemplate;

  public JobCompletionNotificationListener(JdbcTemplate jdbcTemplate) {
    this.jdbcTemplate = jdbcTemplate;
  }

  @Override
  public void afterJob(JobExecution jobExecution) {
    if (jobExecution.getStatus() == BatchStatus.COMPLETED) {
      log.info("!!! JOB FINISHED! Time to verify the results");

      jdbcTemplate
          .query("SELECT first_name, last_name FROM people", new DataClassRowMapper<>(Person.class))
          .forEach(person -> log.info("Found <{}> in the database.", person));
    }
  }
}

JobCompletionNotificationListener监听作业何时BatchStatus.COMPLETED，然后使用JdbcTemplate检查结果。

使应用程序可执行

虽然批处理可以嵌入到 Web 应用程序和 WAR 文件中，但下面演示的更简单的方法创建了一个独立应用程序。您将所有内容打包在一个由一个旧的 Java main()方法驱动的单个可执行 JAR 文件中。

Spring Initializr 为您创建了一个应用程序类。对于这个简单的示例，它无需进一步修改即可工作。以下列表（来自src/main/java/com/example/batchprocessing/BatchProcessingApplication.java）显示了应用程序类

package com.example.batchprocessing;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;

@SpringBootApplication
public class BatchProcessingApplication {

  public static void main(String[] args) {
    System.exit(SpringApplication.exit(SpringApplication.run(BatchProcessingApplication.class, args)));
  }
}

@SpringBootApplication 是一个方便的注解，它添加了以下所有内容

@Configuration：将类标记为应用程序上下文的 bean 定义源。
@EnableAutoConfiguration：告诉 Spring Boot 根据类路径设置、其他 bean 和各种属性设置开始添加 bean。例如，如果 spring-webmvc 在类路径中，此注解会将应用程序标记为 Web 应用程序并激活关键行为，例如设置 DispatcherServlet。
@ComponentScan：告诉 Spring 在 com/example 包中查找其他组件、配置和服务，使其能够找到控制器。

main() 方法使用 Spring Boot 的 SpringApplication.run() 方法启动应用程序。您是否注意到没有一行 XML？也没有 web.xml 文件。这个 Web 应用程序是 100% 纯 Java，您不必处理任何管道或基础设施的配置。

请注意，SpringApplication.exit()和System.exit()确保 JVM 在作业完成后退出。有关更多详细信息，请参阅Spring Boot 参考文档中的应用程序退出部分。

出于演示目的，有代码注入JdbcTemplate，查询数据库，并打印出批处理作业插入的人员姓名。

请注意应用程序如何不使用@EnableBatchProcessing注解。以前，@EnableBatchProcessing可用于启用 Spring Boot 对 Spring Batch 的自动配置。现在可以定义一个带有@EnableBatchProcessing注解或扩展 Spring Batch 的DefaultBatchConfiguration的 bean 来告诉自动配置回退，从而允许应用程序完全控制 Spring Batch 的配置方式。

构建可执行 JAR

您可以使用 Gradle 或 Maven 从命令行运行应用程序。您还可以构建一个包含所有必要依赖项、类和资源并运行的单个可执行 JAR 文件。构建可执行 JAR 使在整个开发生命周期中，跨不同环境等，轻松交付、版本化和部署服务作为应用程序。

如果您使用 Gradle，您可以通过使用 ./gradlew bootRun 运行应用程序。或者，您可以通过使用 ./gradlew build 构建 JAR 文件，然后按如下方式运行 JAR 文件

java -jar build/libs/gs-batch-processing-0.1.0.jar

如果您使用 Maven，您可以通过使用 ./mvnw spring-boot:run 运行应用程序。或者，您可以使用 ./mvnw clean package 构建 JAR 文件，然后按如下方式运行 JAR 文件

java -jar target/gs-batch-processing-0.1.0.jar

这里描述的步骤创建了一个可运行的 JAR。您还可以构建一个经典的 WAR 文件。

作业为每个被转换的人员打印一行。作业运行后，您还可以看到查询数据库的输出。它应该类似于以下输出

Converting (Person[firstName=Jill, lastName=Doe]) into (Person[firstName=JILL, lastName=DOE])
Converting (Person[firstName=Joe, lastName=Doe]) into (Person[firstName=JOE, lastName=DOE])
Converting (Person[firstName=Justin, lastName=Doe]) into (Person[firstName=JUSTIN, lastName=DOE])
Converting (Person[firstName=Jane, lastName=Doe]) into (Person[firstName=JANE, lastName=DOE])
Converting (Person[firstName=John, lastName=Doe]) into (Person[firstName=JOHN, lastName=DOE])
Found <Person[firstName=JILL, lastName=DOE]> in the database.
Found <Person[firstName=JOE, lastName=DOE]> in the database.
Found <Person[firstName=JUSTIN, lastName=DOE]> in the database.
Found <Person[firstName=JANE, lastName=DOE]> in the database.
Found <Person[firstName=JOHN, lastName=DOE]> in the database.

总结

恭喜！您构建了一个批处理作业，该作业从电子表格中摄取数据，对其进行处理，并将其写入数据库。

另请参阅

以下指南也可能有所帮助

想写新指南或为现有指南做贡献吗？请查看我们的贡献指南。

所有指南的代码均采用 ASLv2 许可，文字内容采用署名-禁止演绎知识共享许可。

创建批处理服务