hive-PRO科技-PROSAGA

摘要(Abstract)

Hive 是一种底层封装了Hadoop 的数据仓库处理工具，使用类SQL 的HiveQL 语言实现数据查询，所有Hive 的数据都存储在Hadoop 兼容的文件系统（例如，Amazon S3、HDFS）中。Hive 在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS 中Hive 设定的目录下，因此，Hive 不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。 ● 支持创建索引，优化数据查询。 ● 不同的存储类型，例如，纯文本文件、HBase 中的文件。 ● 将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。 ● 可以直接使用存储在Hadoop 文件系统中的数据。 ● 内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作。 ● 类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。 [1] CLI，Client 和 WUI。元数据存储 Hive 将元数据存储在数据库中，如 mysql、derby。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。解释器、编译器、优化器、执行器解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后由 MapReduce 调用执行。 Hadoop Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成（不包含 * 的查询，比如 select * from tbl 不会生成 MapReduce 任务）。

主题(Topic)

hive hive

ensembl-hive storn Chukwa zookeeper HDFS tez pig mahout druid spark cassandra flume titan sqoop Ambari hbase

hive-metastore elasticsearch-hadoop hql metastore mapjoin user-defined-functions databricks dundas create-table roaringbitmap hiveql hive-udf analytic-functions Barbarian

ensembl-genomes ensembl-ids ensembl-plants ensembl-rest ensembl-servers apache-hive bee-hive cc-hive cdh-hive coin-hive container-hive go-hive hadoop-hive hive-acid hive-api hive-architecture hive-blocks hive-browser hive-computer hive-computing hive-controller hive-core hive-cube hive-database hive-db hive-distributions hive-engine hive-export hive-files hive-game hive-games hive-garden hive-hbase hive-heating hive-helsinki hive-hll hive-home hive-hook hive-impala hive-jdbc hive-model hive-monitoring hive-og hive-partition hive-plot hive-project hive-query

项目(Project)

Ensembl/ensembl-hive-htcondor Ensembl/ensembl-hive Ensembl/ensembl-hive-docker-swarm Ensembl/ensembl-xs Ensembl/ensembl-compara ma-residence/php-coding-challenge EpistasisLab/EVE Ensembl/ensembl-database-loader dhimmel/ensembl-api muffato/pyEnsemblRest Bioconductor/ensemblVEP Ensembl/guiHive maxim-k/PyVep tariqdaouda/pyGeno meliodaseren/hive-udf-demo gary0416/hive-jdbc-handler dedeco/ensembl-api-rest muffato/docker-ensembl-linuxbrew-basic-dependencies muffato/docker-ensembl-linuxbrew-compara timveil/docker-hadoop-hive-hs2 Ensembl/trackhub-registry rurumimic/apache-hive SudarshanRaoP/Hive-UDFs osalmine/ft_printf ZaharBozhok/GPRSbee apache/hive hive Hive hive Hive- 全部项目