Spring XD:统一平台中的数据驱动连接

发布 | Sabby Anandan | 2015年2月12日 | ...

无论您是在家、办公室还是在途中,连接已成为常态。它是我们日常生活中的一部分,我们都已习以为常并依赖于它。人与信息之间的连接完全关乎数据的移动和分析:数据提供见解,而这些见解必须越来越多地向用户提供即时结果。这种始终在线、始终可用的连接性带来了诸多挑战。数据类型、格式和数量都是动态的,产生数据的代理也是如此。

Spring XD 在统一平台中解决了这些众多挑战。无论是通过持续的数据流还是基于计划的数据移动,Spring XD 都提供了端到端的数据管道功能,可以按需消费、处理、分析和存储数据。

随着 1.1 GA 版本的发布,Spring XD 通过添加对项目ReactorRxJavaSpark Streaming的支持来适应功能流处理。除了当前的 Spring Batch 和基于 Hadoop 的作业(MR/Hive/Pig)之外,我们还添加了对SqoopSpark批处理作业的支持。认识到 Python 在大数据应用中的重要性,我们还添加了 Python 处理器和接收器模块以与 Spring XD 流集成。这使用户能够为用例选择合适的工具,从而能够利用原生 API 构建复杂的数据处理管道。

与其他流处理框架不同,Spring XD 的 DSL(领域特定语言)消除了编码需求。忘记设置项目、IDE、构建脚本或打包,而是使用高级配置 DSL。Spring XD 团队继续专注于开发人员的生产力,为平台带来了众多开发人员友好的附加组件和示例。流(管道中的一系列处理单元)可以通过 DSL 进行编排。内置的 Admin UI 可用于远程监控和管理流、批处理作业和集群。

Spring XD 1.1 GA 提供了数千种开箱即用的数据管道组合,无需任何编码。与其他流处理框架不同,此功能由企业信赖的 Spring Integration 项目提供支持,该项目被认为是新兴标准和市场份额领导者

Spring XD 的核心构建于易于扩展的支持之上。1.1 GA 版本为开发和贡献自定义模块提供了一种新方法。由于 Spring Boot 的模块打包插件,您现在可以选择 Maven 或 Gradle 来打包您的自定义模块。通过包含自定义模块所需的依赖项,您可以通过 REST API 部署打包的 uber-jar。这不需要您关闭运行时,也不需要担心当前运行的管道。REST API 简化了贡献,因为已安装的自定义模块立即可用并准备使用。

由于其可插拔架构,Spring XD 继续与框架集成,以简化大数据应用程序的开发。在此最新版本中,您可以从 Kafka 主题(源适配器)中获取数据或写入 Kafka 主题(接收器适配器),还可以将 Kafka 作为消息总线插入。这允许 Spring XD 处理编排,使您能够专注于业务逻辑。

凭借我们对新的Kafka 客户端 API的全新理解,用户现在可以选择新的选项,例如在流级别进行分区、控制偏移量、批处理和可靠的数据重新处理。

1.1 GA 版本还集成了 Spark,这是一个顶级 Apache 项目。通过使用开箱即用的 Spark 作为批处理作业或 Spark Streaming 作为处理器模块,您可以使用原生 Spark API 创建数据管道。对于已经使用 Spark 的人来说,这是一种熟悉的开发体验。同时,任何 Spark 新手都可以立即利用数十个输入和输出适配器,使用模块化和分布式容错运行时,并专注于业务需求。为了解决单点故障问题,Spring XD 通过重新启动 Spark Streaming 驱动程序来从故障场景中恢复,从而提供了附加值。

随着 Spring XD 1.1 GA 的发布,开发大数据应用程序不再需要耗时且复杂。我们使用 Spring XD 的目标是消除应用程序开发和大数据之间的障碍,缩短从数据摄取到洞察的周转时间,从而实现真正的数据驱动应用程序。在未来的版本中,我们将继续提高开发人员的生产力,同时保留 Spring XD 作为开放且可扩展运行时的核心。

获取 Spring 电子邮件简报

通过 Spring 电子邮件简报保持联系

订阅

走在前沿

VMware 提供培训和认证,以加速您的进步。

了解更多

获取支持

Tanzu Spring 在一个简单的订阅中提供对 OpenJDK™、Spring 和 Apache Tomcat® 的支持和二进制文件。

了解更多

即将举行的活动

查看 Spring 社区中所有即将举行的活动。

查看全部