使用 Project Reactor 3 进行上下文传播 - 响应式与命令式之间的统一桥接

工程 | Dariusz Jędrzejczyk | 2023年3月30日 | ...

此文章是系列文章的一部分

我们在上一篇文章中得出的结论是，Spring Cloud Sleuth 的 MANUAL 上下文传播策略既高效又提供了正确的语义。基于大量经验，Spring、Micrometer 和 Reactor 团队创建了一个新的上下文传播库。其目标是封装在 ThreadLocal 值和类似 Map 的结构之间传输上下文数据的关注点。Micrometer 1.10 和 Reactor 3.5 都以此为基础，在 Reactor 和命令式代码之间提供一流的体验。通过使用 Reactor Context，我们隐式地暴露了 ThreadLocal 值，这些值被 Micrometer 用于仪表化跟踪库，并用于填充 SLF4J 的 MDC 以提供包含跟踪标识符的日志。

在本文中，我们将采用与以前不同的方法。我们将从可用的顶层 API 开始，然后解释幕后发生的事情，而不是从头开始构建我们的知识。最后，您将能够：

理解这些机制为何如此工作。
就您的应用程序或库中应采取哪种方法做出正确决策。
了解何时以及为何您无需执行任何操作，并期望所有功能都能开箱即用。

响应式上下文和 ThreadLocals

让我们回顾第一篇文章中的示例，其中我们展示了 delayElement 操作符如何导致响应式链丢失关联标识符。让我们回想一下代码，从我们的操作开始：

Mono<Void> addProduct(String productName) {
  log("Adding product: " + productName);
  return Mono.empty(); // Assume we’re actually storing the product
}

Mono<Boolean> notifyShop(String productName) {
  log("Notifying shop about: " + productName);
  return Mono.just(true); // Assume we’re actually notifying the shop
}

然后我们需要回忆绑定请求处理程序。

Mono<Void> handleRequest() {
  initRequest(); <1>
  log("Assembling the chain"); // <2>

  return Mono.just("test-product")
    .delayElement(Duration.ofMillis(1)) // <3>
    .flatMap(product ->
      Flux.concat(
        addProduct(product), // <4>
        notifyShop(product)).then())
}

从 Reactor 3.5.0 开始，Reactor Context 能够与 Micrometer 旗下的一个新库（名为 context-propagation）集成。我们将在本文末尾更详细地描述这种集成。在 Reactor 3.5+ 中，当 context-propagation 库在类路径上时，我们可以预期在 handle 操作符和新的 tap 操作符中进行日志记录时，我们的 ThreadLocal 值将存在。

要传播我们的自定义 ThreadLocal，我们需要注册一个 ThreadLocalContextAccessor。

ContextRegistry.getInstance()
  .registerThreadLocalAccessor("CORRELATION_ID",
    CORRELATION_ID::get,
    CORRELATION_ID::set,
    CORRELATION_ID::remove);

目前，context-propagation 库的细节对于实现我们的需求并不重要。我们唯一需要知道的是，我们使用了键 CORRELATION_ID，它将与 Reactor Context 一起用于在我们的特殊操作符中恢复 ThreadLocal。让我们修改其余代码以使用它们并在指定位置进行日志记录。

我们只需要对请求处理程序进行一项更改。

Mono<Void> handleRequest() {
  initRequest(); // <1>
  log("Assembling the chain");

  return Mono.just("test-product")
    .delayElement(Duration.ofMillis(1))
    .flatMap(product ->
      Flux.concat(
        addProduct(product),
        notifyShop(product)).then())
    .contextCapture(); // <2>
}

我们所做的唯一修改是返回给调用者的链末尾的 <2> contextCapture 运算符。此运算符的作用是捕获当前 ThreadLocal 值（已在 ContextRegistry 中注册 ThreadLocalAccessor 实例），并将其存储在 Reactor Context 中的相同键下。在此特定实现中，我们唯一的希望是订阅在组装阶段之后立即发生，如 <1> 中，我们设置了 ThreadLocal 值。

接下来，我们将使用 tap 运算符添加日志记录。

Mono<Void> addProduct(String productName) {
  return Mono.<Void>empty()
    .tap(() -> new DefaultSignalListener<>() {
      @Override
      public void doOnComplete() throws Throwable {
        log("Adding product: " + productName);
      }
  });
}

在这里，我们正在扩展 reactor-core 的 reactor.core.observability 包中的 DefaultSignalListener。我们只对完成信号感兴趣，在该信号处我们执行日志操作。

对于 handle 运算符，我们将修改 notifyShop 方法。

Mono<Boolean> notifyShop(String productName) {
  return Mono.just(true)
    .handle((result, sink) -> {
      log("Notifying shop about: " + productName);
      sink.next(result);
    });
}

现在让我们看看，当我们调用处理程序时，是否能得到正确的输出。

handleRequest().block();

结果如下：

[      main][  643805344761543048] Assembling the chain
[parallel-1][  643805344761543048] Adding product: test-product
[parallel-1][  643805344761543048] Notifying shop about: test-product

太棒了！这实际上与 Spring Cloud Sleuth 的 MANUAL 策略相同，但已集成到 Reactor 的内部，因此您无需手动恢复 ThreadLocal 值。我们选择 tap 和 handle 是因为这些操作符可以访问绑定到 Subscriber 的 Context，并允许对具体的 Reactive Streams 信号采取行动。

记住：Reactor Context 用于写入，ThreadLocals 用于读取。

事实上，我们的请求处理程序有点危险。如果延迟订阅操作，我们将丢失关联标识符。考虑：

Mono<Void> requestHandler = handleRequest(); // <1>

Thread subscriberThread = new Thread(requestHandler::block); // <2>
subscriberThread.start();
subscriberThread.join();

输出如下：

[      main][ 1388809065574796038] Assembling the chain
[parallel-1][                null] Adding product: test-product
[parallel-1][                null] Notifying shop about: test-product

组装发生在 <1>，ThreadLocal 在 main 中设置。然而，订阅发生在 <2> 中的一个新 Thread 上，该 Thread 没有 ThreadLocal 值可供捕获。因此，我们的日志没有关联标识符。我们可以用 Mono.defer() 包装处理程序的正文来解决此问题。但是，与其这样做，不如考虑我们是否首先需要实际设置 ThreadLocal。

在调用 Reactor 链的命令式应用程序中，例如调用 WebClient 的 Spring MVC 控制器方法，ThreadLocal 值已经建立，contextCapture 将捕获它们并将其存储在 Context 中。

另一方面，在像 WebFlux 这样的响应式栈中，直接使用 contextWrite 更合理。

我们知道 Reactor 将使用其 Context 的内容来恢复 ThreadLocal 值。如果我们直接将所需值存储在 Context 中，而不是从当前状态捕获它们，我们将稍微提高性能，但也会提高与函数式编程范式的符合性。让我们试试看。

Mono<Void> handleRequest() {
  // initRequest(); -- no write to ThreadLocal
  log("Assembling the chain");

  return Mono.just("test-product")
    // <1>
    .delayElement(Duration.ofMillis(1))
    .flatMap(product ->
      Flux.concat(
        addProduct(product),
        notifyShop(product)).then())
    .contextWrite(
      Context.of("CORRELATION_ID", correlationId())); // <2>
}

我们来运行它。

[      main][                null] Assembling the chain
[parallel-1][ 7059587638538899074] Adding product: test-product
[parallel-1][ 7059587638538899074] Notifying shop about: test-product

太棒了！我们实际的响应式链包含一个正确的关联标识符。

不幸的是，我们在组装阶段丢失了一个。其中一个原因是日志没有发生在 handle 或 tap 操作符中。如果我们在 <1> 中使用 tap 操作符添加一个初始日志，我们就会没问题。带有关联标识符的 Context 绑定到 <2> 上游的链。如果我们在 contextWrite 调用之后添加一个日志 tap 操作符，我们将看不到正确的关联标识符——在该阶段附加的 Context 是一个不同的上下文，不包含我们的标识符。我们稍后会回到这个问题，但首先，让我们考虑是否可以简化代码并避免使用特殊操作符。

自动上下文传播

当 reactor-core 3.5.0 发布时，它被包含在 Spring Framework 6.0 和 Spring Boot 3.0 中。使用 Spring Cloud Sleuth 进行跟踪的现有 Spring 用户习惯于日志中填充 trace-id 和 span-id 值（类似于我们的关联标识符）。切换到新范式（可观察性是 Spring 核心产品套件的一部分）将要求现有应用程序重写其日志记录以使用 handle 和 tap 运算符。我们继续思考如何使更多运算符能够恢复 ThreadLocal 值。

正如我们在上一篇文章中看到的，恢复可以跨多个操作符的 ThreadLocal 值并非易事。选择 handle 和 tap 是因为它们不会让 ThreadLocal 值泄漏。运行用户代码不会传播任何信号。当用户代码运行时，ThreadLocal 值是存在的。然后捕获结果。最后，清除 ThreadLocal 上下文。只有之后，信号才会响应式地传播到下游操作符。此外，我们希望更具选择性，因为在每个操作符中执行恢复会产生大量开销，正如第 2 部分中所讨论的。

我们仔细重新思考了一切，并提出了一个可以组合到以下调用的想法（从 reactor-core 3.5.3 开始）

Hooks.enableAutomaticContextPropagation();

我们可以将其添加到应用程序的 main 方法中。

我们现在可以恢复动作方法的初始实现。

Mono<Void> addProduct(String productName) {
  log("Adding product: " + productName);
  return Mono.empty();
}

Mono<Boolean> notifyShop(String productName) {
  log("Notifying shop about: " + productName);
  return Mono.just(true);
}

我们保持 handleRequest 方法和在新 Thread 上的订阅不变。让我们运行它。

[      main][                null] Assembling the chain
[parallel-1][ 8362586195225273235] Adding product: test-product
[parallel-1][ 8362586195225273235] Notifying shop about: test-product

成功！

有了这个功能，我们可以将使用 Spring Cloud Sleuth 的现有代码库迁移到新的 Spring Framework，而无需对日志记录方式进行任何更改。有了上述钩子，如果您将 Spring Boot Actuator 与 Micrometer Tracing 结合使用，SLF4J 日志将填充跟踪信息，而无需执行任何操作。很快，Spring Boot 将自动为您调用该钩子。

编写框架代码

我们提到我们将回到组装时日志的问题。到目前为止，我们一直在请求处理逻辑中启动关联标识符生成过程。理想情况下，我们的处理程序应该由服务器调用，并且返回的 Publisher（Flux 或 Mono）由调用代码订阅。我们的处理程序恢复到初始状态：

Mono<Void> handleRequest() {
  log("Assembling the chain");

  return Mono.just("test-product")
    .delayElement(Duration.ofMillis(1))
    .flatMap(product ->
      Flux.concat(
        addProduct(product),
        notifyShop(product)).then());
}

让我们通过将上下文附加到返回的 Mono 来模拟服务器代码。

Mono<Void> requestHandler = handleRequest()
  .contextWrite(Context.of("CORRELATION_ID", correlationId()));

然后我们需要运行它。

requestHandler.block();

组装时间仍然缺少关联标识符。

[      main][                null] Assembling the chain
[parallel-1][ 5508113792645841519] Adding product: test-product
[parallel-1][ 5508113792645841519] Notifying shop about: test-product

contextWrite 运算符在订阅时（以及其他生命周期事件）恢复 ThreadLocal 值。为了让用户代码在组装时拥有日志，对该代码的整个调用需要成为响应式链的一部分。这样，用户代码在外部 Mono 订阅时执行，并且返回的内部 Mono 立即订阅。对于整个执行，如果我们这样做，外部 Mono 的 Context 将在 ThreadLocal 中可用，在我们的“框架”代码中：

Mono<Void> requestHandler = Mono.defer(() -> handleRequest())
  .contextWrite(Context.of("CORRELATION_ID", correlationId()));

我们所需要做的就是使用 Mono.defer() 并将 Context 附加到它上面。

幸运的是，Spring Framework 运行良好，并且也在订阅阶段处理了我们的组装。

我们是否已经解决了上下文传播问题？

这种新方法看起来非常有前景。人们可能会想，鉴于过去采取的方法，这种新机制将如何被打破？我们对这种方法更有信心，因为它更符合 Reactive Streams 的本质。过去不基于 Reactor Context 的方法存在一个主要的误解——它们将 ThreadLocal 值向下传播——希望在某个时候进行清理。然而，传播并没有语义边界来停止。

依赖 ThreadLocal 值下游传播也可能是错误的来源。响应式库向上游和下游传播信号。一个信号可能触发另一个信号，但它并非必须如此。不同的 Thread 可以继续处理。flatMap 类操作符执行的某些优化（例如预取）可以从上游请求和排队值，而无需我们下游传播机制的参与。如果我们希望即使在反压或取消时记录日志时也能拥有上下文信息，我们需要考虑所有可能的信号。

一个重要的观察来自 Context 决定逻辑边界的方式。当您调用 contextWrite 并在 Context 中存储一个值时，所有上游操作符都可以访问修改后的版本。所有下游操作符将看不到修改，但会看到您的修改所基于的状态。

绑定到 Subscriber 的 Context 的性质是我们新方法的基础。我们修改了 contextWrite 运算符，使其在订阅时、取消时和请求时信号向上游传播时，将 ThreadLocal 值设置为反映当前 Context。但是，当信号向下游传播时，它将这些 ThreadLocal 值重置为下游 Context 中表示的值。

我们仍然需要使用 Scheduler 包装方法。我们还需要 Queue 包装方法（为此我们需要改进生命周期语义）。

但是，我们可以考虑通过在这些情况下传输 Reactor Context 而不是捕获 ThreadLocal 值来改善情况。这可以提高性能。

此外，当我们使用不受 Reactor 控制的 Publisher 或使用我们无法控制的 Thread 的源（例如使用 Mono.fromFuture() 示例来模拟远程调用）时，我们仍然会丢失 ThreadLocal 值。目前的一种缓解措施是引入 contextWrite 运算符的语义边界，这并不会真正改变 Context，就像 notifyShop 方法的这个变体一样：

Mono<Boolean> notifyShop(String productName) {
  log("Notifying shop about: " + productName);
  return makeRequest(productName) // <1>
    .contextWrite(Function.identity()) // <2>
    .doOnNext(r -> log("Request done.")); // <3>
}

makeRequest 方法在系列的上一篇文章中定义。如果我们假设 makeRequest 是一个第三方库调用，它使用我们无法控制的 Thread，我们也无法包装它在 <1> 中以及在完成其操作的异步代码中执行的代码。该链的任何日志都不会填充关联标识符。传播此类上下文将是库作者的责任。但是，因为我们在 <2> 中使用了边界，所以我们在 <3> 中的日志包含关联标识符。

我们打算在 reactor-core 中添加必要的功能，为那些以 Reactor 无法控制的方式更改 Threads 的源提供这样的边界。

在命令式场景中，只调用响应式代码以使用阻塞订阅（例如通过使用 block()），我们计划自动执行 contextCapture 以透明地将当前 ThreadLocal 值传播到响应式链中。例如，这在 Spring MVC 应用程序中与 WebClient 交互时将非常有用。

上下文传播库

捕获 ThreadLocal 状态并在各个位置恢复它本身就是一个有趣的话题。通常，我们会想到多个 ThreadLocal 值，它们之间具有逻辑连接，或者与各种关注点对应的类似 Map 的结构。我们创建了一个专用库，通过捕获 ThreadLocal 的状态并将其恢复到相应的目标中，从而在 ThreadLocal 和任意对象之间进行转换。在前面的示例中，我们使用了 context-propagation 库的一些 API。它在 Micrometer 旗下开源，如果您想在代码中使用它，它还提供了带有示例的参考文档。

Project Reactor 使用 ServiceLoader JDK 机制注册了一个处理 Reactor Context 的 ContextAccessor。另一方面，Micrometer 注册了一个 ObservationThreadLocalAccessor，它处理 Micrometer Tracing 和其他检测机制工作所需的 ThreadLocal 状态，使用单一 Observation 概念。

我们强烈建议尝试将 Spring Boot 与 Spring Boot Actuator 结合使用，以启用跟踪功能，亲身体验这种无缝的体验。

总结

在本系列博客文章中，我们介绍了上下文传播的基础知识，并探讨了命令式和响应式编程范式之间桥接的历史和现状。我们衷心希望您现在能够自信地使用我们实现的功能。在最佳情况下，如果您使用自动上下文传播功能，您无需做太多工作。此外，在这种有趣的情况下，我们希望您的自定义传播逻辑能够利用本文中描述的原语。如果您有任何疑问，可以联系我们，或者在 GitHub 上报告问题。

致谢

本系列若无同事们逐字审查，便无法发表。我要感谢（按字母顺序排列）：Simon Baslé、Jay Bryant、Pierre De Rop、Oleh Dokuka、Marcin Grzejszczak、Robert McNees、Rossen Stoyanchev 和 Tadaya Tsuyukubo。

额外内容

要使用所用的示例，请随时使用我的 GitHub 仓库中的相关包。

Spring 博客

使用 Project Reactor 3 进行上下文传播 - 响应式与命令式之间的统一桥接

响应式上下文和 ThreadLocals

自动上下文传播

编写框架代码

我们是否已经解决了上下文传播问题？

上下文传播库

总结

致谢

额外内容

获取 Spring 新闻通讯

领先一步

获得支持

即将举行的活动