摘要(Abstract)

Apache Pig 是apache平台下的一个免费开源项目,Pig为大型数据集的处理提供了更高层次的抽象,很多时候数据的处理需要多个MapReduce过程才能实现,使得数据处理过程与该模式匹配可能很困难。有了Pig就能够使用更丰富的数据结构。 [2] Pig LatinPig Latin 是一个相对简单的语言,一条语句 就是一个操作,与数据库的表类似,可以在关系数据库中找到它(其中,元组代表行,并且每个元组都由字段组成)。 Pig 拥有大量的数据类型,不仅支持包、元组和映射等高级概念,还支持简单的数据类型,如 int、long、float、double、chararray 和 bytearray。并且,还有一套完整的比较运算符,包括使用正则表达式的丰富匹配模式。 [3] 常用命令编辑 FILTER 过滤结果集,添加条件   FOREACH 对元组进行迭代输出   GROUP 将数据分组,类似SQL的分组函数。   JOIN 两个或两个以上的关系(内连接或外部连接)多个文件之间的关联关系。   LOAD 从文件系统加载数据。   ORDER 根据一个或多个字段对关系进行排序,支持升序asc和降序desc。   SPLIT 将一个关系划分为两个或两个以上的关系。   STORE 把数据存储到HDFS中 [4]


主题(Topic)

项目(Project)