介绍 Spring XD

工程 | Mark Fisher | 2013 年 4 月 23 日 | ...

今天我们正式启动了一项名为 Spring XD 的新计划,其主题是“应对大数据复杂性”1

Spring Data 团队在过去几年中一直非常忙碌,不仅为 NoSQL 数据存储提供支持,还简化了 Hadoop 的开发体验。通过创建 Spring for Apache Hadoop 项目,我们通过提供丰富的配置模型和 Hadoop 生态系统项目(如 Hive 和 Pig)的一致编程模型,使开发 Hadoop 应用程序变得更容易。正如 Spring 用户所期望的那样,人们可以

  1. 将 MapReduce 作业配置并作为容器管理对象运行。
  2. 使用 HDFS、HBase、Pig 和 Hive 的模板辅助类,从应用程序中删除样板代码。

Spring for Apache Hadoop 为构建 Hadoop 应用程序提供了坚实的基础。Spring XD 在这些基础资产之上构建,进一步简化了创建真实世界大数据解决方案的过程。具体来说,Spring XD 解决了常见的大数据用例,例如:

  1. 从各种输入源向 HDFS 进行高吞吐量的分布式数据摄取。
  2. 摄取时的实时分析,例如收集指标和计数。
  3. 通过批处理作业管理 Hadoop 工作流,这些作业结合了与标准企业系统(例如关系型数据库)的交互以及 Hadoop 操作(例如 MapReduce、HDFS、Pig、Hive 或 Cascading)。
  4. 高吞吐量数据导出,例如从 HDFS 导出到关系型数据库或 NoSQL 数据库。

Spring Data 一书涵盖了其中几个用例,该书的示例代码可在我们的 GitHub 仓库中获取。这些示例除了 Spring for Apache Hadoop 项目外,还基于 Spring Batch 和 Spring Integration 构建。

在管理事件驱动的数据摄取流时,Spring Integration 提供了一个成熟的模型,其灵感来自公认的企业集成模式。同样,Spring Batch 是一个用于管理工作流的强大解决方案,对最重要的要求(如作业状态管理和重试/重启功能)提供了强大的支持,并且是 JSR-352 的基础。

将框架扩展以支持大数据用例始于书中的示例,但通过 Spring XD,我们的目标是将这种支持提升到另一个层次。首先,我们将提供一个涵盖上述四个用例类别的一致模型。对于具有 Spring 经验的人来说,这个模型将非常熟悉。其次,随着 Spring XD 的发展,我们将远远超越 API 层,提供一个开箱即用的可执行服务器、一个可插拔的模块系统、一个用于在 Hadoop 集群内部或外部分发数据收集实例的简单模型等等。

如果您觉得这很有趣,请参与进来!您可以 fork 仓库和/或监控 JIRA。现在它几乎是一个全新的项目,但我们希望确保我们的社区成员有机会从一开始就参与进来。一如既往,我们认为我们广泛而充满热情的社区的反馈是我们最大的财富。在过去一年中,我们做了大量的原型设计,所以您很快就会看到一些代码发布。此外,我们计划在每次冲刺后发布博客,以便您可以跟踪进展。而且,如果您还没有注册 SpringOne,请务必注册;Spring XD 将在其中占据突出地位。

最后,请务必报名参加我们明天(4 月 24 日)的直播活动:Pivotal:一个新时代的全新平台

1XD = eXtreme Data 或 'x',如 y = mx + b ;-)

获取 Spring 新闻通讯

通过 Spring 新闻通讯保持联系

订阅

领先一步

VMware 提供培训和认证,助您加速进步。

了解更多

获得支持

Tanzu Spring 提供 OpenJDK™、Spring 和 Apache Tomcat® 的支持和二进制文件,只需一份简单的订阅。

了解更多

即将举行的活动

查看 Spring 社区所有即将举行的活动。

查看所有