@zhangyy 2016-05-20T03:13:10.000000Z 字数 2175 阅读 583

hive 的udf 函数处理

大数据系列

1）依据课程讲解UDF编程案例，完成练习，总结开发UDF步骤，代码贴图，给予注释，重点

2）更改emp 表中名字的大写给为小写。

一：hive 的udf 函数：

hive UDF 函数概述：
1. hive自带了一些函数比如：max/min 等，但是由于自带的函数数量有限，自己可以定义udf来方便扩展。
2. udf 函数可以直接应用于select 语句，对查询结构做格式化处理之后，然后再输出内容。
hive 编写udf函数的时候需要注意的地方：
1. 自定义udf函数需要继承org.apache.hadoop.hive.ql.UDF
2. 需要实现evaluate 函数，evaluate 函数支持重载。
3. udf 必须要有返回类型，可以返回null，但是返回类型不能为void；
4. udf 常用Text/LongWrite 等类型，不推荐使用java类型。

hive 的udf 函数编写：

环境配置处理：
更改repository源

cd .m2/
mv repository repository.bak
上传新的repository.tar.gz 包。
tar -zxvf repository.tar.gz
备份原有setting.xml 文件
cp -p setting.xml setting.xml.bak
cd /home/hadoop/yangyang/maven/conf
cp -p setting.xml setting.xml

更改maven源的配置：

在setting.xml 中<mirrors> ....</mirrors> 之间增加新的源仓库：
 <mirror>
       <id>nexus-osc</id>
        <mirrorOf>central</mirrorOf>
        <name>Nexus osc</name>
        <url>http://maven.oschina.net/content/groups/public/</url>
    </mirror>
拷贝新的setting文件到maven 的配置文件中
cp -p .m2/setting.xml /home/hadoop/yangyang/maven/conf

更改eclipse的pom.xml 文件增加：

在原有的<dependencies>....</dependencies> 之间加上hive 的参数：
 <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-jdbc</artifactId>
            <version>0.13.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>0.13.1</version>
        </dependency>   
  </dependencies>

二：更改emp 表中名字的大写给为小写。

新建UDF包：
编写lowerudf.java

package org.apache.hadoop.udf;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
/**
 * New UDF classes need to inherit from this UDF class.
 */
public class LowerUDF extends UDF{
    /**
     * 1. Implement one or more methods named "evaluate" which will be called by Hive.
     * 
     * 2. "evaluate" should never be a void method. However it can return "null" if needed.
     */
    public Text evaluate(Text str){
        // input parameter validate
        if(null == str){
            return null ;
        }
        // validate 
        if(StringUtils.isBlank(str.toString())){
            return null ;
        }
        // lower 
        return new Text(str.toString().toLowerCase()) ;
    }
    public static void main(String[] args) {
        System.out.println(new LowerUDF().evaluate(new Text()));
    }
}

导出jar包到/home/hadoop/yangyang/hive/jars 下面：
image_1aj5vd9tq11dv5bm18c0qn6hdf9.png-132kB

image_1aj5veenk7ia10u21cdg1p2clvnm.png-116.3kB

image_1aj602rhi1qnq1lblfao1r7n1crg2n.png-89.9kB
image_1aj604gcm2cflnp1fgcjs3c4j3h.png-70.9kB
image_1aj5vp38k1j6a16hpma31lpn1okt1t.png-108.1kB

image_1aj601np3fbu1u8812671ejj1d8a2a.png-7.8kB

执行lowerudf 包：
增加jar包与hive的关联：

add jar /home/hadoop/yangyang/hive/jars/lowerudf.jar
create temporary function my_lower as 'org.apache.hadoop.udf.LowerUDF' ;
show functions;

image_1aj6142qfish17jbq641hud1783u.png-19kB
image_1aj615ltq1oc8skf14bt5t8ghn4b.png-4.1kB
image_1aj61709b1c017d01glgebb8sa4o.png-17.1kB

销毁临时的udf 函数：

drop temporary function add_example;
<!--这里指my_lower 函数-->

执行my_lower 函数：

select my_lower(ename) from emp;

image_1aj61ljuq1gih3fpj3k15dg11l855.png-27.8kB
image_1aj61meql1kpm1c3r1c7kduj1nqp5i.png-21.4kB

hive 的udf 函数处理

一：hive 的udf 函数：

hive 的udf 函数编写：

二： 更改emp 表中名字的大写给为小写。

内容目录

选择主题

二：更改emp 表中名字的大写给为小写。