@feuyeux 2015-03-25T04:52:25.000000Z 字数 1136 阅读 2160

Apache Spark发布1.3版本，包括引入Data Frames、改进Spark SQL和MLlib

infoq spark

Apache Spark项目发布了1.3版本。主要改进是增加了DataFrames API、更成熟的Spark SQL，以及一些添加到机器学习库MLlib的新方法，此外，可以更好地将Spark Streaming与Apache Kafka整合。

其中一个主要新增功能是在DataFrames API。采用R语言中的同名数据结构建模，目的是为对列表数据提供更好的支持。DataFrame包含一张类型化并命名列的表，并提供过滤、分组或计算聚集等操作，类似于SQL查询。

DataFrames与分布式SQL查询引擎Spark SQL紧密集成。 DataFrames可以构建自SQL查询结果集、弹性分布式数据集，或者从像Parquet格式的文件中加载。到目前为止，RDDS（弹性分布式数据集）是Spark中的主要的分布式数据采集类型，但DataFrames旨在为结构化数据提供更好的支持。

作为Spark的一部分，机器学习库Spark MLlib已经实现了一些补充的学习算法，例如隐含狄利克雷分布，这是一种确定文件主题、聚集相关文件的概率方法，又如多项逻辑递归，用于多类预测任务。MLlib开始部分支持分布式线性代数，包括以分布式方式存储矩阵块。这样的功能是许多更复杂的数据分析任务所必需的，包括矩阵分解，这往往涉及矩阵过大难以载入主存储器。

在这些算法之上，Spark还增加了更高级功能，为数据分析，增加导入和导出学习过的预测模型，还有在1.2版本引入的管道API，使用户以高级的方式指定数据转换管道。这种管道通常用于数据科学领域的原始数据相关特征的提取。

此外，Spark现在已经与Apache Kafka直接集成，可以摄取实时事件数据。

Apache Spark最初开始于2009年，源自加州大学伯克利分校的AMPLab。它可以独立运行，或者在现有的Hadoop安装上运行，并提供了比Hadoop原生的MapReduce处理模型更大的操作集合。它尽可能地使用内存持有数据，因此相对于主要基于磁盘的MapReduce有进一步的性能改进。另外，通过收集缓冲区中的数据，然后周期性地处理这些小型的批处理，Spark具备了处理接近实时的事件数据的能力。在类似的项目中，Apache Flink不但有类似的功能集合，还包括查询优化和连续数据流处理引擎，Cascading和Scalding项目，提供了一组类似的高级操作，但运行在MapReduce处理模型之上。

查看英文原文：Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements

Apache Spark发布1.3版本，包括引入Data Frames、改进Spark SQL和MLlib

内容目录