我很高兴宣布 Spring for Apache Hadoop 项目的第二个里程碑版本 (1.0.0.M2) 已可用。在这篇博客文章中,我想快速重点介绍 M2 中的主要新特性。
HBase DAO 支持
Spring Framework 中最通用和强大的功能之一是数据访问对象(DAO)支持。借助 Spring for Hadoop 1.0.0 M2,HBase 也添加了相同的功能。熟悉流行的模板和回调模式的用户会感到得心应手,因为该框架处理表查找、资源清理和异常转换,让开发人员可以专注于真正重要的事情。有关更多信息,请参阅 API 和参考文档。顺便说一句,我们还在分发包中包含了一个新的示例,
hbase-crud,帮助您立即上手。
Cascading Taps
在 M2 中,我们通过
Tap 来扩展与
Cascading 库的集成,用于 Spring Framework 和 Spring Integration 资源。Spring Integration 适配器(无论是入站还是出站)的丰富性,如 File、TCP、Twitter、FTP、RSS(仅举几例),现在可供 Cascading(及其扩展,如
Cascalog 或
Scalding)使用。我们才刚刚开始 - 敬请期待这方面的更多新闻。
Hadoop 安全
使用 M2,从一个普通的 Hadoop 安装(例如开发机器)迁移到完全由 Kerberos 保护的 Hadoop 集群是透明的。文件系统、Map/Reduce 和 Pig 组件都具备安全意识,在适当的凭据下执行并支持用户模拟。有关更多信息,请参阅
专用章节。
增强的普通 Map/Reduce 支持
从一开始,Spring for Apache Hadoop 就为 Map/Reduce 作业提供了广泛的支持 - 无论是普通的还是传统的 Java Map/Reduce、
streaming 或
tooling。在 M2 中,我们全面增加了对 Hadoop
通用选项的
支持,使得通过单独命名资源或通过模式匹配进行作业配置变得一行代码即可实现。此外,我们增强了基于 jar 的作业的引导 - 无需将类放在 classpath 中,作业可以完全从 jar 文件中隔离加载。类(及其依赖项)不会
泄露到应用程序中,从而避免了各种版本冲突和依赖
蔓延。工具声明得到了改进,可以自动读取 Jar 元数据及其
Main-Class,为 Hadoop shell 的
替代方案提供了一个强大、完全托管的
jar调用。
两个新示例
最后但同样重要的是,分发包中添加了两个新示例
hbase-crud,我在之前提到过,展示了声明式和编程式 HBase 支持,以及
pig-scripting,演示 JVM 和 Pig 脚本:前者在 HDFS 中进行数据准备,后者进行数据分析。还有更多示例正在开发中,如果您特别想看到什么,请
告诉我们。
希望您喜欢这个新的里程碑版本。来吧,下载 1.0.0 M2,试用一下,并告诉我们您的想法!
其他新闻:Project Serengeti
就新版本而言,Spring for Apache Hadoop 1.0.0 M2 并非 Hadoop 领域的唯一新闻。今天,VMware 推出了 project Serengeti,用于虚拟化和高可用 Hadoop。请参阅 Richard McDougall 关于其背后动机、当前状态的博客文章…