hive开发规范


立即下载 咿呀哟
2024-09-10
分区 string OMM ENT 分割 字段 文件夹 URL 标签 数据
661.8 KB

1 开发规范
1.1 数据开发规范
1.1.1 hive数据目录规范
1.1.1.1 表分区键命名
月分区键: month
日分区键: day
创建分区键的时候分区键不能和表字段名相同。
1.1.1.2 hdfs 存放位置
表数据文件在 hdfs 存放位置: /user/hive/warehouse/ 模式名 .db/ 表名 / 分区名 /[ 子分
区名 ]。
示例:
/user/hive/warehouse/ods.db|dwd.db|dwa.db|dwf.db/dwa_s_d_use_mb_voice_comm_
d/month=201405/day=31
1.1.1.3 字段分隔符
字段分割符: 表的字段分割符默认使用 '\001' ,接口层表的字段分割符仍采用源文件中
的字段分割符。
空值处理:为了保证导出数据的正确性,空值统一用
SERDEPROPERTIES('serialization.null.format' = '') 进行处理。
1.1.1.4 分区表结构
创建分区表分为 2 种,一种是单分区, 也就是说在表文件夹目录下只有一级文件夹目录。
另外一种是多分区,表文件夹下出现多文件夹嵌套模式。
示例:
单分区表
create table dwa_v_d_wap_mb_url_label
( month_id string COMMENT '账期月 ' ,
day_id string COMMENT '账期日 ' ,
device_number string COMMENT '手机号码 ',
prov_id string COMMENT '省份代码 ',
url_1 string COMMENT 'URL标签 ',
url_2 string COMMENT 'URL标签 ',
url_3 string COMMENT 'URL标签 '
)
partitioned by (month string)
row format delimited fields terminated by '\001' ;
多分区表
create table dwa_v_d_wap


分区/string/OMM/ENT/分割/字段/文件夹/URL/标签/数据/ 分区/string/OMM/ENT/分割/字段/文件夹/URL/标签/数据/
-1 条回复
登录 后才能参与评论
-->