领先一步
VMware 提供培训和认证,以加速您的进步。
了解更多今天,我们很高兴地宣布 Spring XD 1.2 正式发布,Spring XD 1.1.3 发布以及 Flo for Spring XD Beta 版本发布。
1.2 版本包含大量新功能和改进。发布过程充满波折,主要原因是 Spring XD 在许多不同群体中都很受欢迎,每个群体都有各自的请求优先级。然而,Spring XD 团队迎接了挑战,回顾过去并检查为满足我们简化大数据复杂性的承诺而交付的创新成果,令人欣慰。
以下是我们在过去 3 个月中一直在忙于的事情以及为社区和客户创造的价值的摘要。
##Flo for Spring XD 和 UI 改进
Flo for Spring XD 是一款运行在 Spring XD 运行时之上的 HTML5 画布应用程序,它提供了一个图形界面,用于创建、管理和监控流式数据管道。以下是一个简短的屏幕截图,展示了如何构建高级流定义。
您可以浏览 文档 以获取更多信息以及 Flo 实际操作的其他屏幕截图链接。
XD 管理屏幕还包括一个 新的分析部分,允许您轻松查看仪表盘、计数器、字段值计数器和聚合计数器。
##性能改进
为了满足日益增长的、高吞吐量和低延迟物联网的需求,我们在底层消息总线实现中进行了一些性能优化,以便使用 Kafka 作为传输在 Spring XD 容器之间传输每秒数百万条消息。通过这些优化,我们现在与 Kafka 自身测试工具的性能相当。但是,我们使用功能更丰富的 Spring Integration Kafka 客户端,而不是 Kafka 的高级消费者库。
对于任何有兴趣复制这些数字的人,请参阅 XD 基准测试博客,其中详细描述了执行的测试和使用的基础设施。
##Apache Ambari 和 Pivotal HD
为了帮助自动化在 Apache HadoopⓇ 集群上部署 Spring XD,我们添加了一个 用于 Spring XD 的 Apache AmbariⓇ 插件。该插件在 Pivotal HD 3.0 和 Hortonworks HDP 2.2 分发版上都受支持。我们还在 Spring XD 中添加了对 Pivotal HD 3.0 的支持,使受支持的 Hadoop 版本总数 达到五个。
##新的源、处理器、接收器和批处理作业
Spring XD 最大的价值主张之一是其完整的开箱即用数据连接适配器集,可用于创建实时和基于批处理的数据管道,并且对于常见用例几乎不需要用户代码。在社区贡献的帮助下,我们现在有 MongoDB、VideCap 和 FTP 作为源模块,一个 XSLT 变换器处理器 和 FTP 接收器模块。XD 团队还开发了一个 Cassandra 接收器 和一个 语言检测处理器。
认识到在 Pivotal Big Data 产品组合 中的重要作用,我们还通过 gpfdist 接收器 添加了与 Pivotal Greenplum Database 和 Pivotal HAWQ 的原生集成,用于实时流式传输,以及对 基于 gpload 的批处理作业 的支持。
为了增强我们的开发人员生产力主题以及 Spring XD 在生产环境中用于大容量数据摄取用例,我们很高兴地认可 Simon Tao 和 Yu Cao(EMC² 首席技术官和实验室中国),他们自 2014 年以来一直在生产环境中使用 Spring XD 数据管道,并且还为 VideCap 源模块做出了贡献。他们用例和实施细节(用他们自己的话说)如下。
“对于视频监控行业来说,从海量非结构化视频流中提取见解的需求非常大。在数据科学家进行分析之前,首先需要摄取视频监控数据。为了应对这一挑战,我们使用 Spring XD 构建了一个高度可扩展且可扩展的视频数据摄取平台。该平台已准备好将不同类型的视频源摄取到中心化的大数据湖中。鉴于 Spring XD 中的开箱即用功能,该平台旨在允许丰富的视频内容处理功能,例如视频转码和对象检测等。
该平台还支持各种类型的视频源——数据处理器和数据导出目标(例如 HDFS、Gemfire XD 和 Spark),这些源作为 Spring XD 中的自定义模块构建,并且高度可重用和可组合。使用声明性 DSL,视频摄取流将由定义为模块的有向无环图的视频摄取管道处理。该管道旨在部署在集群环境中,上游模块通过消息总线有效地将数据传输到下游模块。Spring-XD 分布式运行时允许管道中的每个模块在不同节点上并行运行多个实例。通过水平扩展,我们的系统能够支持大规模视频监控部署,这些部署具有大量的视频数据和复杂的数据处理工作负载。”
##自定义模块注册表和 HA 支持
虽然我们一直能够配置共享网络位置以实现自定义模块的分布式可用性(通过:xd.customModule.home),但我们也认识到在故障情况下使模块注册表具有弹性的重要性——因此,我们有一个 HDFS 支持的模块注册表。在生产部署中设置此设置可以提供自定义模块位的持续可用性和灵活性选择,这由业务需求决定。
##Pivotal Cloud Foundry 集成
为了进一步推进 Pivotal Cloud Foundry 集成工作,我们对 Spring XD 运行时进行了多项基础级别更改,因此我们能够在 Lattice 和 Diego 中将 Spring XD 模块作为云原生应用程序运行。我们有积极的路线图计划,将在 Diego 本身上启动 Spring XD。在研究 Diego 的 Receptor API(用 Go 编写!)时,我们创建了一个 Java Receptor API,现在已提议将其纳入 Cloud Foundry 的孵化计划。
##后续步骤
我们有一些非常有趣的发展即将到来。也许最重要的是,我们将启动专注于消息驱动和面向批处理的“数据微服务”的新项目。这些项目将分别直接构建在 Spring Boot 以及 Spring Integration 和 Spring Batch 之上。我们的主要目标是为创建云原生、以数据为中心的微服务应用程序提供尽可能简单的开发人员体验。反过来,Spring XD 2.0 将被重构为这些项目之上的一个层,以支持将这些数据微服务组成流和作业,以及它今天提供的所有“即服务”方面,但它将主要关注部署到 Cloud Foundry 和 Lattice。我们很快就会发布更多关于这些新项目的信息,敬请期待!
反馈非常重要,因此请通过以下方式与我们联系提出问题和意见
spring-xd
标签编者注:©2015 Pivotal Software, Inc. 保留所有权利。Pivotal、Pivotal HD、Pivotal Greenplum Database、Pivotal Gemfire 和 Pivotal Cloud Foundry 是 Pivotal Software, Inc. 在美国和/或其他国家/地区的商标和/或注册商标。Apache、Apache Hadoop、Hadoop 和 Apache Ambari 都是 Apache Software Foundation 在美国和/或其他国家/地区的注册商标或商标。