Apache Hadoop 1.0 版 Spring 正式发布

工程 | Costin Leau | 2013 年 2 月 26 日 | ...

我们很高兴地宣布 Spring for Apache Hadoop 的第一个 GA 版本 (1.0) 发布,距离其第一个里程碑版本发布几乎整整一年。在这段时间里,我们吸纳了大量用户的反馈来推动路线图,因此感谢社区中所有提供帮助的人!虽然在过去的一年中添加了新功能,但 Spring for Apache Hadoop 的目标保持不变,即简化基于 Hadoop 的应用程序的开发。

立即下载,或在此处查看 Maven 工件查看

简化的编程模型和一致性

我们观察到,使用 Hadoop 自带的标准开箱即用工具,很容易最终得到结构不良的 Hadoop 应用程序,这些应用程序由命令行实用程序、脚本和拼凑在一起的代码片段组成。Hadoop 生态系统中各个项目的不同起源,例如专注于声明式用法的HivePig,或者专注于编程方式的CascadingHBase,导致了不同的配置和 API 设计方法。

 

Spring for Apache Hadoop 为广泛的 Hadoop 生态系统项目提供了一个一致的编程和配置模型:框架并不规定使用什么,而是拥抱并增强您的技术栈,忠于 Spring 的核心原则。

 

Spring 熟悉的模板 API 设计模式应用于 Hadoop,结果产生了诸如HBaseTemplateHiveTemplatePigTemplate之类的辅助类。这带来了 Spring 数据访问模板的熟悉特性,例如转换为 Spring 的可移植数据访问异常层次结构、对底层资源的线程安全访问以及轻量级对象映射功能。可以自由使用以 Java 为中心的 API(例如 Cascading),无论是否进行额外配置,都可以通过 Spring Framework 优秀的 Java 配置来实现。

从小处开始,按需扩展

过去一年中出现的另一个主题是鼓励从小处开始,逐步发展为复杂解决方案的方法。引入各种Runner类允许执行HivePig脚本、普通 Map/Reduce 或 Streaming作业、Cascading 流,还可以通过熟悉的 JDK 调用通用基于 JVM 的脚本Callable契约。您可以根据需要混合和匹配这些运行器,但随着复杂性的增加,可以轻松地升级Spring Batch,以便以有状态的方式协调多个步骤并使用 REST API 进行管理。Spring Batch 处理大型文件 ETL 处理的丰富功能直接转化为 Hadoop 中从 HDFS 导入和导出文件的用例。将 Spring Hadoop 与Spring Integration结合使用,可以对事件流进行丰富的处理,这些事件流可以在读取和写入 HDFS 或其他存储(如 NOSQL 存储)之前进行转换、丰富和过滤,Spring Data为此提供了大量支持。我们通过示例应用程序(无需编译,它们已经编译并准备下载)涵盖了各种场景,这些示例应用程序补充了全面的用户文档(甚至包括有关如何使用 Amazon 的 Elastic MapReduce 服务开始使用 Spring for Apache Hadoop 的章节)。此外,作为示例的补充,可以使用最近的Spring Data 书籍[1]来了解使用 Spring 技术、Hadoop 和 NOSQL 可以实现的完整功能集。

 

可移植性

Spring for Apache Hadoop 正在针对各种 Hadoop 1.x 发行版(如普通 Apache Hadoop、Cloudera CDH3 和 CDH4、Greenplum HD)进行每日测试:我们希望确保无论您的 Hadoop 环境如何,SHDP 都能可靠地工作。我们正在积极努力改善用户体验 - Spring for Apache Hadoop 在Greenplum HD发行版中开箱即用。我们密切关注 Hadoop 2.x 的开发,并努力在不久的将来提供对它的支持。

 

如果您正在使用 Spring for Apache Hadoop,我们非常乐意收到您的反馈。请参加我们的调查并分享您的体验。

 

 

一如既往,我们期待您的反馈!

 

[1] Spring Data 图书销售的作者版税捐赠给知识共享组织。

获取 Spring 新闻通讯

通过 Spring 新闻通讯保持联系

订阅

领先一步

VMware 提供培训和认证,以加快您的进步。

了解更多

获取支持

Tanzu Spring 在一个简单的订阅中提供 OpenJDK™、Spring 和 Apache Tomcat® 的支持和二进制文件。

了解更多

即将举行的活动

查看 Spring 社区中所有即将举行的活动。

查看全部