Apache Hadoop 1.0.0 M2 版 Spring 亮点
我很高兴地宣布,Apache Hadoop 版 Spring 项目的第二个里程碑版本 (1.0.0.M2) 已发布。在这篇博文中,我想快速重点介绍 M2 中的主要新功能。
HBase DAO 支持
Spring Framework 最通用和强大的功能之一是数据访问对象 (或 DAO) 支持。借助 Apache Hadoop 版 Spring 1.0.0 M2,为 HBase 添加了相同的功能。流行的模板和回调模式的用户应该会感到宾至如归,因为框架处理表查找、资源清理和异常转换,让开发人员专注于真正重要的事情。有关更多信息,请参阅 API 和参考文档。顺便说一句,我们还在发行版中包含了一个新示例,
hbase-crud,以帮助您立即开始。
级联 Taps
在 M2 中,我们通过
引入专用于 Spring Framework 和 Spring Integration 资源的
Tap,扩展了与
Cascading 库的集成。Spring Integration 适配器(无论入站还是出站)的丰富性(例如文件、TCP、Twitter、FTP、RSS(仅举几例))现在可用于 Cascading(及其扩展,如
Cascalog 或
Scalding)。而且我们才刚刚开始 - 期待这方面有更多消息。
Hadoop 安全性
使用 M2,从普通 Hadoop 安装(例如开发机器)迁移到完全 Kerberos 保护的 Hadoop 集群是透明的。文件系统、Map/Reduce 和 Pig 组件都具有安全意识,在正确的凭据下执行并支持用户模拟。有关更多信息,请参阅专门的
章节。
增强的普通 Map/Reduce 支持
从一开始,Apache Hadoop 版 Spring 就为 Map/Reduce 作业提供了广泛的支持 - 无论是普通还是传统的 Java Map/Reduce、
流式处理还是
工具。在 M2 中,我们添加了对 Hadoop
通用选项的
支持,使作业配置(无论是通过单独命名资源还是通过模式匹配)成为一行代码。此外,我们增强了基于 jar 的作业的引导 - 作业可以完全隔离地从 jar 加载,而不是要求类位于类路径上。类(及其依赖项)不会
泄漏到应用程序中,从而避免了各种版本冲突和依赖项
蔓延。工具声明已得到改进,可以自动读取 Jar 元数据及其
Main-Class,为 Hadoop shell 提供了强大且完全托管的
替代jar调用。
两个新的示例
最后但并非最不重要的一点是,发行版中添加了两个新的示例
hbase-crud,如前所述,展示了声明性和编程式的 HBase 支持,以及
pig-scripting,演示了 JVM 和 Pig 脚本:前者在 HDFS 中为后者准备数据,后者进行数据分析。管道中还有更多示例,如果您想查看特定内容,请
告诉我们。
我希望您喜欢这个新的里程碑版本。继续,获取 1.0.0 M2,试用一下并告诉我们您的想法!
其他新闻:Serengeti 项目
就新版本而言,Apache Hadoop 版 Spring 1.0.0 M2 并不是 Hadoop 方面的唯一新闻。今天,VMware 公布了Serengeti 项目,用于虚拟化和高可用性 Hadoop。请参阅 Richard McDougall 关于其动机、当前状态和路线图的博文。