[关闭]
@tsing1226 2015-12-12T23:02:04.000000Z 字数 729 阅读 2067

Hive中的不同的文件格式测试--ORC AND PARQUET

测试验证数据文件格式 + 文件存储

1 orc + snappy

1.1 创建表格

create table page_views_orc_snappy(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS ORC tblproperties ("orc.compress"="SNAPPY") ;

1.2 插入数据

insert into table page_views_orc_snappy select * from page_views ;

2 parquet + snappy

2.1 创建表格

create table page_views_parquet_snappy(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS PARQUET ;

2.2 加载数据:

set parquet.compression=SNAPPY ;-->使用Snappy设置
insert into table page_views_parquet_snappy select * from page_views ;

总结:在实际项目开发中,hive表的数据的存储格式为:orc / parquet,压缩使用的是Snappy。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注