@zmycoco 2017-02-26T04:08:39.000000Z 字数 1136 阅读 547

Beam晋升Apache顶级项目

摘要

Beam渡过了孵化期并成功地晋升Apache顶级项目，Google支持并贡献给开源社区整合更多的数据处理框架。

正文

Beam最近成功地晋升为Apache软件基金会的顶级项目，Beam的目标包括使用灵活的高层及数据流处理不限时间、无序、全球规模的数据。Beam最初是由Google内部项目创建，随后被捐献给了Apache，并于2016年2月开始一直孵化到当年年底。Beam项目寻求针对流式和批处理任务创建一个统一编程模型，并且产生可以被许多已经支持的数据处理引擎消费的组件。Beam寻求：

为世界提供一个易用的、强大的数据并行处理模型，支持包括流式和批处理，灵活地在各种实时平台之间工作。Beam SDKs使用相同的类展现有限和无限数据，并且基于这些数据至上做相同的转换操作。

Java和Python的SDK支持提供了选择的后台处理引擎和处理管道组件之间的抽象层。支持的处理引擎包括Apache Apex、Flink、Spark以及Google Cloud Dataflow引擎。

Beam管道的编程模型包括PCollection(s)、Transform(s)和Pipeline I/O，以及每个支持处理引擎的Runners，对于本地DirectRunner不作为默认的Beam：

Pipeline
PCollection
Core SDK transform objects ParDo、GroupByKey、Combine、 Flatten、Partition
Source / Sink Pipeline I/O
DirectRunner、DataflowRunner、SparkRunner、FlinkRunner以及ApexRunner

Google开源Beam的动机是作为新兴商业业务的一部分，用以支持集成，同时贡献给其他开源项目。基本想法是这样做可以增加Beam的潜在使用几率，深层次是想要提升Google Dataflow平台的曝光度，深层次原因是因为Beamd的出现会提升已经支持的处理引擎。Google在Spark和Beam之间进行了比较，注明Beam模型由于它专注于流式和批量数据处理，所以Beam是正确的模型选择，并且通过启用事件时间窗口（Event-Time Windowing）、水印（Watermark）、触发（Trigger）特性等证明了语义重要性。开源社区和数据科学产业还不能独立于Google进行数据验证，并且应该围绕系统架构和基准使用更多的用例分析。早期迹象显示Beam社区正在不断发展，并且围绕支持多个处理平台也有积极的反馈。

原文地址：https://www.infoq.com/news/2017/02/apache-beam-top-level

Beam晋升Apache顶级项目

内容目录