@liyuj 2017-10-07T14:48:52.000000Z 字数 12973 阅读 4129

Apache-Ignite-2.2.0-中文开发手册

3.Hadoop加速器

3.1.Hadoop加速器

Ignite Hadoop加速器提供了一个组件集来进行内存Hadoop作业执行以及文件系统操作。

3.1.1.MapReduce

Hadoop加速器提供了一个高性能的作业跟踪器实现，替代了标准的Hadoop MapReduce，使用它可以提高Hadoop MapReduce作业执行的性能。

3.1.2.IGFS-内存文件系统

Hadoop加速器提供了一个HadoopFileSystem实现，它通过分布式Ignite文件系统(IGFS)在内存内存储文件系统数据，使用它可以最小化磁盘IO以及改进任何文件系统操作的性能。

3.1.3.二级文件系统

Hadoop加速器提供了一个SecondaryFileSystem的实现，这个实现可以注入已有的IGFS以在任何其他的HadoopFileSystem实现上进行通读和通写操作（比如HDFS）。如果希望在基于磁盘的HDFS或者任何其他的Hadoop兼容文件系统上建立一个内存缓存层，那么可以使用它。

3.1.4.支持的Hadoop发行版

Ignite Hadoop加速器可以用于一系列的Hadoop发行版，每个发行版都需要一个特定的安装步骤。

3.2.MapReduce

Ignite内存MapReduce可以有效地对存储在任何Hadoop文件系统上的数据进行并行处理，他在提供了低延迟，HPC样式的分布式处理的同时还消除了与标准Hadoop架构中的作业跟踪器和任务跟踪器有关的开销。内存内的MapReduce对于强CPU需求的任务提供了令人激动的性能，而仅仅需要对已有的应用进行很小的改动。

3.2.1.配置Ignite

Ignite Hadoop加速器MapReduce引擎在Ignite集群中处理Hadoop作业，必须满足若干前提条件：

必须设置IGNITE_HOME环境变量并且指向Ignite的安装根目录；
每个集群节点在类路径中必须包含Hadoop的jar文件，可以参照Ignite针对各个Hadoop发行版的安装向导来了解详细信息；
集群节点通过监听特定的Socket来接收作业执行的请求。每个Ignite节点默认都会监听来自127.0.0.1:11211的请求，可以通过ConnectorConfiguration类来改写默认的主机和端口。

<bean class="org.apache.ignite.configuration.IgniteConfiguration">
  ...
  <property name="connectorConfiguration">
    <list>
      <bean class="org.apache.ignite.configuration.ConnectorConfiguration">
        <property name="host" value="myHost" />
        <property name="port" value="12345" />        
      </bean>
    </list>    
  </property>
</bean>

3.2.2.运行Ignite

配置Ignite节点后用如下方法启动：

$ bin/ignite.sh

3.2.3.配置Hadoop

要通过Ignite作业跟踪器运行Hadoop作业需要满足一些必要条件：

必须设置IGNITE_HOME环境变量并且指向Ignite的安装根目录；
Hadoop在类路径中必须包含Ignite Jars:${IGNITE_HOME}\libs\ignite-core-[version].jar以及${IGNITE_HOME}\libs\hadoop\ignite-hadoop-[version].jar，这可以通过几种方式实现：
- 将这几个jar文件加入HADOOP_CLASSPATH环境变量中；
- 将这些jar文件拷贝或者建立符号链接到Hadoop存放共享库的文件夹中，可以参照Ignite针对各个Hadoop发行版的安装向导来了解详细信息；
Hadoop作业必须配置使用Ignite作业跟踪器，有两个配置属性负责这个：
- mapreduce.framework.name：必须设置为ignite；
- mapreduce.jobtracker.address：必须设置为Ignite节点监听的主机/端口；

这仍然可以通过几种方式实现，第一，可以创建独立的带有这些配置属性的mapred-site.xml文件然后将其用于作业执行：

<configuration>
  ...
  <property>
    <name>mapreduce.framework.name</name>
    <value>ignite</value>
  </property>
  <property>
    <name>mapreduce.jobtracker.address</name>
    <value>127.0.0.1:11211</value>
  </property>
  ...
</configuration>

第二，可以覆写Hadoop安装的mapred-site.xml，这会强制所有Hadoop作业默认选择Ignite作业跟踪器，除非通过某种方式在作业级覆写。
第三，可以为特定的作业通过编程方式设置这些属性：

Configuration conf = new Configuration();
...
conf.set(MRConfig.FRAMEWORK_NAME,  IgniteHadoopClientProtocolProvider.FRAMEWORK_NAME);
conf.set(MRConfig.MASTER_ADDRESS, "127.0.0.1:11211);
...
Job job = new Job(conf, "word count");
...

3.2.4.运行Hadoop

如何运行一个作业取决于如何配置Hadoop：
如果配置了独立的mapred-site.xml：

hadoop --config [path_to_config] [arguments]

如果修改了默认的mapred-site.xml，那么--config选项就不是必要的了：

hadoop [arguments]

如果通过编程方式启动作业，那么像下面这样提交他：

...
Job job = new Job(conf, "word count");
...
job.submit();

3.3.在Apache Hadoop上安装

本章节描述了如何在Apache Hadoop发行版上安装Ignite Hadoop加速器。
安装由如下的主要步骤组成：

将Ignite的jar加入Hadoop的类路径；
启动Ignite节点；
向Hadoop传递正确的配置。

3.3.1.Ignite

下载最新版本的Ignite Hadoop加速器然后解压到某处；
设置IGNITE_HOME环境变量，指向上一步Ignite Hadoop加速器的解压目录；
确保HADOOP_HOME环境变量设置正确，这对于Ignite查找必须的Hadoop的类是必要的；
如果希望从HDFS中缓存数据需要配置二级文件系统，打开$IGNITE_HOME/config/default-config.xml，将secondaryFileSystem属性的注释去掉，然后设置正确的HDFSURI。

<bean class="org.apache.ignite.configuration.FileSystemConfiguration">
  ...
  <property name="secondaryFileSystem">
    <bean class="org.apache.ignite.hadoop.fs.IgniteHadoopIgfsSecondaryFileSystem">
      <property name="fileSystemFactory">
        <bean class="org.apache.ignite.hadoop.fs.CachingHadoopFileSystemFactory">
          <property name="uri" value="hdfs://your_hdfs_host:9000/"/>
        </bean>
      </property>
    </bean>
  </property>
</bean>

如果需要，也可以向文件系统工厂传递额外的Hadoop配置文件：

<bean class="org.apache.ignite.hadoop.fs.CachingHadoopFileSystemFactory">
  <property name="uri" value="hdfs://your_hdfs_host:9000/"/>
  <property name="configPaths">
    <list>
      <value>/path/to/core-site.xml</value>
    </list>
  </property>
</bean>

到这一步，Ignite节点已经配置好可以启动了：

$IGNITE_HOME/bin/ignite.sh

3.3.2.Hadoop

确保设置IGNITE_HOME环境变量，指向Ignite Hadoop加速器的解压目录；
拷贝或者符号链接Ignite的jar文件到Hadoop的类路径，这可以使Hadoop在运行时加载Ignite的类；

cd $HADOOP_HOME/share/hadoop/common/lib
ln -s $IGNITE_HOME/libs/ignite-core-[version].jar
ln -s $IGNITE_HOME/libs/ignite-shmem-1.0.0.jar
ln -s $IGNITE_HOME/libs/ignite-hadoop/ignite-hadoop-[version].jar

创建Hadoop配置；
Hadoop会根据配置文件，分别为core-site.xml和mapred-site.xml，确定使用那个文件系统和作业跟踪器。
设置这个配置的建议方式是创建单独的目录，拷贝已有的core-site.xml和mapred-site.xml文件到那里，然后应用必要的配置变更，比如：

mkdir ~/ignite_conf
cd ~/ignite_conf
cp $HADOOP_HOME/etc/hadoop/core-site.xml .
cp $HADOOP_HOME/etc/hadoop/mapred-site.xml .

如果要使用IGFS，需要在core-site.xml中添加类名映射：

<configuration>
  ...
  <property>
    <name>fs.igfs.impl</name>
    <value>org.apache.ignite.hadoop.fs.v1.IgniteHadoopFileSystem</value>
  </property>
  <property>
    <name>fs.AbstractFileSystem.igfs.impl</name>
    <value>org.apache.ignite.hadoop.fs.v2.IgniteHadoopFileSystem</value>
  </property> 
  ...
</configuration>

如果要使用IGFS作为默认的文件系统（即没有igfs://前缀），那么应该设置core-site.xml中的fs.defaultFS属性：

<configuration>
  ...
  <property>
    <name>fs.defaultFS</name>
    <value>igfs://igfs@/</value>
  </property>
  ...
</configuration>

如果希望使用Ignite的Hadoop加速器用于MapReduce作业，那么应该将mapred-site.xml指向正确的作业跟踪器：

<configuration>
  ...
  <property>
    <name>mapreduce.framework.name</name>
    <value>ignite</value>
  </property>
  <property>
    <name>mapreduce.jobtracker.address</name>
    <value>[your_host]:11211</value>
  </property>
  ...
</configuration>

作为替代，也可以使用Ignite发行版自带的配置文件，位于$IGNITE_HOME/config/hadoop目录。

3.3.3.使用Ignite Hadoop加速器

到这一步安装已经完成然后就可以启动运行作业或者处理IGFS了。
查询IGFS：

hadoop --config ~/ignite_conf fs -ls /

运行一个作业：

hadoop --config ~/ignite_conf jar [your_job]

3.4.在Cloudera CDH上安装

本章节描述了如何在Cloudera CDH发行版上安装Ignite Hadoop加速器。
安装由如下的主要步骤组成：

将Ignite的jar加入Hadoop的类路径；
启动Ignite节点；
向Hadoop传递正确的配置。

3.4.1.Ignite

下载最新版本的Ignite Hadoop加速器然后解压到某处；
设置IGNITE_HOME环境变量，指向上一步Ignite Hadoop加速器的解压目录；
确保正确设置了如下的Hadoop环境变量，假定CDH安装于usr/lib目录：

export HADOOP_HOME=/usr/lib/hadoop/
export HADOOP_COMMON_HOME=/usr/lib/hadoop/
export HADOOP_HDFS_HOME=/usr/lib/hadoop-hdfs/ 
export HADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce/

如果希望从HDFS中缓存数据，需要配置二级文件系统，打开$IGNITE_HOME/config/default-config.xml，取消secondaryFileSystem属性的注释并且设置正确的HDFSURI：

<bean class="org.apache.ignite.configuration.FileSystemConfiguration">
  ...
  <property name="secondaryFileSystem">
    <bean class="org.apache.ignite.hadoop.fs.IgniteHadoopIgfsSecondaryFileSystem">
      <property name="fileSystemFactory">
        <bean class="org.apache.ignite.hadoop.fs.CachingHadoopFileSystemFactory">
          <property name="uri" value="hdfs://your_hdfs_host:8020"/>
        </bean>
      </property>
    </bean>
  </property>
</bean>

如果需要，也可以给文件系统工厂传递额外的Hadoop配置文件：

<bean class="org.apache.ignite.hadoop.fs.CachingHadoopFileSystemFactory">
  <property name="uri" value="hdfs://your_hdfs_host:9000"/>
  <property name="configPaths">
    <list>
      <value>/path/to/core-site.xml</value>
    </list>
  </property>
</bean>

到这一步，Ignite已经配置好了：

$IGNITE_HOME/bin/ignite.sh

3.4.2.CDH

确保设置IGNITE_HOME环境变量，指向Ignite Hadoop加速器的解压目录；
拷贝或者符号链接Ignite的jar文件到Hadoop的类路径，这可以使Hadoop在运行时加载Ignite的类；

cd /usr/lib/hadoop/lib
ln -s $IGNITE_HOME/libs/ignite-core-[version].jar
ln -s $IGNITE_HOME/libs/ignite-shmem-1.0.0.jar
ln -s $IGNITE_HOME/libs/ignite-hadoop/ignite-hadoop-[version].jar

创建Hadoop配置；
Hadoop会根据配置文件，分别为core-site.xml和mapred-site.xml，确定使用那个文件系统和作业跟踪器。
设置这个配置的建议方式是创建单独的目录，拷贝已有的core-site.xml和mapred-site.xml文件到那里，然后应用必要的配置变更，比如：

mkdir ~/ignite_conf
cd ~/ignite_conf
cp /usr/hdp/current/hadoop-client/etc/core-site.xml .
cp /usr/hdp/current/hadoop-client/etc/mapred-site.xml .

如果要使用IGFS，需要在core-site.xml中添加类名映射：

<configuration>
  ...
  <property>
    <name>fs.igfs.impl</name>
    <value>org.apache.ignite.hadoop.fs.v1.IgniteHadoopFileSystem</value>
  </property>
  <property>
    <name>fs.AbstractFileSystem.igfs.impl</name>
    <value>org.apache.ignite.hadoop.fs.v2.IgniteHadoopFileSystem</value>
  </property> 
  ...
</configuration>

如果要使用IGFS作为默认的文件系统（即没有igfs://前缀），那么应该设置core-site.xml中的fs.default.name属性：

<configuration>
  ...
  <property>
    <name>fs.default.name</name>
    <value>igfs://igfs@/</value>
  </property>
  ...
</configuration>

如果希望使用Ignite的Hadoop加速器用于MapReduce作业，那么应该将mapred-site.xml指向正确的作业跟踪器：

<configuration>
  ...
  <property>
    <name>mapreduce.framework.name</name>
    <value>ignite</value>
  </property>
  <property>
    <name>mapreduce.jobtracker.address</name>
    <value>[your_host]:11211</value>
  </property>
  ...
</configuration>

作为替代，也可以使用Ignite发行版自带的配置文件，位于$IGNITE_HOME/config/hadoop目录。

3.4.3.使用Ignite Hadoop加速器

到这一步安装已经完成然后就可以启动运行作业或者处理IGFS了。
查询IGFS：

hadoop --config ~/ignite_conf fs -ls /

运行一个作业：

hadoop --config ~/ignite_conf jar [your_job]

3.5.在Hortonworks HDP上安装

本章节描述了如何在Hortonworks HDP发行版上安装Ignite Hadoop加速器。
安装由如下的主要步骤组成：

将Ignite的jar加入Hadoop的类路径；
启动Ignite节点；
向Hadoop传递正确的配置。

3.5.1.Ignite

下载最新版本的Ignite Hadoop加速器然后解压到某处；
设置IGNITE_HOME环境变量，指向上一步Ignite Hadoop加速器的解压目录；
确保正确设置了如下的Hadoop环境变量，假定HDP安装于usr/hdp/current目录：

export HADOOP_HOME=/usr/hdp/current/
export HADOOP_COMMON_HOME=/usr/hdp/current/hadoop-client/
export HADOOP_HDFS_HOME=/usr/hdp/current/hadoop-hdfs-client/ 
export HADOOP_MAPRED_HOME=/usr/hdp/current/hadoop-mapreduce-client/

如果希望从HDFS中缓存数据，需要配置二级文件系统，打开$IGNITE_HOME/config/default-config.xml，取消secondaryFileSystem属性的注释并且设置正确的HDFSURI：

<bean class="org.apache.ignite.configuration.FileSystemConfiguration">
  ...
  <property name="secondaryFileSystem">
    <bean class="org.apache.ignite.hadoop.fs.IgniteHadoopIgfsSecondaryFileSystem">
      <property name="fileSystemFactory">
        <bean class="org.apache.ignite.hadoop.fs.CachingHadoopFileSystemFactory">
          <property name="uri" value="hdfs://your_hdfs_host:9000"/>
        </bean>
      </property>
    </bean>
  </property>
</bean>

如果需要，也可以给文件系统工厂传递额外的Hadoop配置文件：

<bean class="org.apache.ignite.hadoop.fs.CachingHadoopFileSystemFactory">
  <property name="uri" value="hdfs://your_hdfs_host:9000"/>
  <property name="configPaths">
    <list>
      <value>/path/to/core-site.xml</value>
    </list>
  </property>
</bean>

到这一步，Ignite已经配置好了：

$IGNITE_HOME/bin/ignite.sh

3.5.2.HDP

确保设置IGNITE_HOME环境变量，指向Ignite Hadoop加速器的解压目录；
拷贝或者符号链接Ignite的jar文件到Hadoop的类路径，这可以使Hadoop在运行时加载Ignite的类；

cd /usr/hdp/current/hadoop-client/lib
ln -s $IGNITE_HOME/libs/ignite-core-[version].jar
ln -s $IGNITE_HOME/libs/ignite-shmem-1.0.0.jar
ln -s $IGNITE_HOME/libs/ignite-hadoop/ignite-hadoop-[version].jar

创建Hadoop配置；
Hadoop会根据配置文件，分别为core-site.xml和mapred-site.xml，确定使用那个文件系统和作业跟踪器。
设置这个配置的建议方式是创建单独的目录，拷贝已有的core-site.xml和mapred-site.xml文件到那里，然后应用必要的配置变更，比如：

mkdir ~/ignite_conf
cd ~/ignite_conf
cp /usr/hdp/current/hadoop-client/etc/core-site.xml .
cp /usr/hdp/current/hadoop-client/etc/mapred-site.xml .

如果要使用IGFS，需要在core-site.xml中添加类名映射：

<configuration>
  ...
  <property>
    <name>fs.igfs.impl</name>
    <value>org.apache.ignite.hadoop.fs.v1.IgniteHadoopFileSystem</value>
  </property>
  <property>
    <name>fs.AbstractFileSystem.igfs.impl</name>
    <value>org.apache.ignite.hadoop.fs.v2.IgniteHadoopFileSystem</value>
  </property> 
  ...
</configuration>

如果要使用IGFS作为默认的文件系统（即没有igfs://前缀），那么应该设置core-site.xml中的fs.default.name属性：

<configuration>
  ...
  <property>
    <name>fs.default.name</name>
    <value>igfs://igfs@/</value>
  </property>
  ...
</configuration>

如果希望使用Ignite的Hadoop加速器用于MapReduce作业，那么应该将mapred-site.xml指向正确的作业跟踪器：

<configuration>
  ...
  <property>
    <name>mapreduce.framework.name</name>
    <value>ignite</value>
  </property>
  <property>
    <name>mapreduce.jobtracker.address</name>
    <value>[your_host]:11211</value>
  </property>
  ...
</configuration>

作为替代，也可以使用Ignite发行版自带的配置文件，位于$IGNITE_HOME/config/hadoop目录。

3.5.3.使用Ignite Hadoop加速器

到这一步安装已经完成然后就可以启动运行作业或者处理IGFS了。
查询IGFS：

hadoop --config ~/ignite_conf fs -ls /

运行一个作业：

hadoop --config ~/ignite_conf jar [your_job]

3.6.Ignite和Apache Hive

本章节描述如果在经过Ignite加速后的Hadoop上正确配置和启动Hive，还显示了通过这样的配置如何启动HiveServer2以及一个远程客户端。

3.6.1.前提条件

假定Hadoop已经安装和配置好以运行在Ignite上，然后配置了IGFS文件系统以及MapReduce作业跟踪器功能的Ignite节点也已经启动运行。
还需要安装Hive。

3.6.2.启动Hive

下面是在Ignited的Hadoop上运行Hive的必要步骤：

提供可执行的Hadoop的正确位置，这个可以通过将可执行文件的路径加入PATH环境变量（注意可执行的文件大都位于一个叫做bin/的文件夹），或者通过指定HADOOP_HOME环境变量实现；
提供配置文件的位置（core-site.xml,hive-site.xml,mapred-site.xml），这个可以通过将这些文件放入一个目录然后将该目录的路径作为HIVE_CONF_DIR环境变量值来实现。

配置模板
建议使用Hive模板配置文件<IGNITE_HOME>/config/hadoop/hive-site.ignite.xml来获得Ignite指定的设置。

有一个与Hive和Hadoop中的不同jline库版本有关的潜在问题，他可以通过设置HADOOP_USER_CLASSPATH_FIRST=true环境变量来解决。

为了方便，也可以创建一个简单的脚本来正确地设置所有必要的变量然后启动Hive，像下面这样：

# Specify Hive home directory:
export HIVE_HOME=<Hive installation directory>
# Specofy configuration files location:
export HIVE_CONF_DIR=<Path to our configuration folder>
# If you did not set hadoop executable in PATH, specify Hadoop home explicitly:
export HADOOP_HOME=<Hadoop installation folder>
# Avoid problem with different 'jline' library in Hadoop: 
export HADOOP_USER_CLASSPATH_FIRST=true
${HIVE_HOME}/bin/hive "${@}"

这个脚本可以用于在交互式控制台上启动Hive：

$ hive-ig cli
hive> show tables;
OK
u_data
Time taken: 0.626 seconds, Fetched: 1 row(s)
hive> quit;
$

3.6.3.启动HiveServer2

如果为了增强的客户端功能希望使用HiveServer2，要启动它也可以使用上面创建的脚本。

hive-ig --service hiveserver2

服务启动之后，可以使用任何有效的客户端（比如beeline）连接它。作为一个远程客户端，beeline可以在任意主机运行，他也不需要任何特别的环境来与IgnitedHive一起工作，下面是示例：

$ ./beeline 
Beeline version 1.2.1 by Apache Hive
beeline> !connect jdbc:hive2://localhost:10000 scott tiger org.apache.hive.jdbc.HiveDriver
Connecting to jdbc:hive2://localhost:10000
Connected to: Apache Hive (version 1.2.1)
Driver: Hive JDBC (version 1.2.1)
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:hive2://localhost:10000> show tables;
+-----------+--+
| tab_name  |
+-----------+--+
| u_data    |
+-----------+--+
1 row selected (0.957 seconds)
0: jdbc:hive2://localhost:10000>

3.Hadoop加速器

3.1.Hadoop加速器

3.1.1.MapReduce

3.1.2.IGFS-内存文件系统

3.1.3.二级文件系统

3.1.4.支持的Hadoop发行版

3.2.MapReduce

3.2.1.配置Ignite

3.2.2.运行Ignite

3.2.3.配置Hadoop

3.2.4.运行Hadoop

3.3.在Apache Hadoop上安装

3.3.1.Ignite

3.3.2.Hadoop

3.3.3.使用Ignite Hadoop加速器

3.4.在Cloudera CDH上安装

3.4.1.Ignite

3.4.2.CDH

3.4.3.使用Ignite Hadoop加速器

3.5.在Hortonworks HDP上安装

3.5.1.Ignite

3.5.2.HDP

3.5.3.使用Ignite Hadoop加速器

3.6.Ignite和Apache Hive

3.6.1.前提条件

3.6.2.启动Hive

3.6.3.启动HiveServer2

内容目录

选择主题