我很高兴地宣布Spring for Apache Hadoop项目的第二个里程碑版本 (1.0.0.M2)已推出。在这篇博客文章中,我想快速重点介绍 M2 中的主要新功能。
HBase DAO 支持
Spring框架中最通用和强大的功能之一是数据访问对象(DAO)支持。Spring for Hadoop 1.0.0 M2为HBase添加了相同的功能。流行的模板和回调模式的用户应该会感觉很熟悉,因为框架处理表查找、资源清理和异常转换,让开发者专注于真正重要的事情。有关更多信息,请参阅API和参考文档。顺便说一句,我们还在发行版中包含了一个新的示例:
hbase-crud,帮助您立即上手。
级联Taps
在M2中,我们通过
Cascading库的
Tap来扩展与Spring框架和Spring Integration资源的集成。Spring Integration适配器(无论入站还是出站)的丰富性,例如文件、TCP、Twitter、FTP、RSS(仅举几例),现在可用于Cascading(及其扩展,例如
Cascalog或
Scalding)。而这仅仅是个开始——敬请期待更多这方面的消息。
Hadoop安全
使用M2,从普通的Hadoop安装(例如开发机器)迁移到完全Kerberos安全的Hadoop集群是透明的。文件系统、Map/Reduce和Pig组件都是安全感知的,在正确的凭据下执行并支持用户模拟。有关更多信息,请参阅专门的
章节。
增强的普通Map/Reduce支持
从一开始,Spring for Apache Hadoop就为Map/Reduce作业提供了广泛的支持——无论是普通的还是传统的Java Map/Reduce、
流式处理还是
工具。在M2中,我们添加了对Hadoop
通用选项的
支持,通过单独命名资源或通过模式匹配,使作业配置成为一行代码。此外,我们改进了基于jar的作业的引导——作业无需将类放在类路径上,即可完全独立地从jar加载。类(及其依赖项)不会_泄漏_到应用程序中,从而避免了各种版本冲突和依赖_蔓延_。工具声明已改进为自动读取Jar元数据及其
Main-Class,提供了一个功能强大、完全托管的
替代方案,以替代Hadoop shell
jar调用。
两个新的示例
最后但并非最不重要的是,发行版中添加了两个新的示例
hbase-crud,前面我提到过,展示了声明式和编程式的HBase支持,以及
pig-scripting,演示了JVM和Pig脚本:前者为后者在HDFS中准备数据,后者进行数据分析。我们还有更多示例正在开发中,如果您想看到任何特定内容,请
告诉我们。
希望您喜欢这个新的里程碑。继续,获取1.0.0 M2,试用一下,并告诉我们您的想法!
其他新闻:Serengeti项目
就新版本而言,Spring for Apache Hadoop 1.0.0 M2并不是Hadoop领域的唯一新闻。今天,VMware推出了Serengeti项目,用于虚拟化和高可用性Hadoop。请参阅Richard McDougall的博文,了解其背后的动机、当前状态……