Hadoop学习总结

立即下载 作者: 布偶的表弟派大星丶
上传时间: 2024-04-19
关键词: 数据 Hadoop 分布式存储运行系统 HDFS 提供项目集群
大小 196.9 KB
描述

   Hadoop学习总结
一、 背景
随着信息时代脚步的加快，各类数据信息越来越多，海量数据的来源列举如下：
◎纽约证券交易所每天产生 1TB的交易数据。
◎ Facebook 存储着约 100 亿张照片，约 1PB数据。
◎ Ancestry.com ，一个家谱网站，存储着 2.5PB 数据。
◎ The Internet Archive （互联网档案馆）存储着约 2PB的数据，并以每月至少 20TB的速
度增长。
◎瑞士日内瓦附近的大型强子对撞机每年产生约 15PB数据。
面对海量数据，如何存储和分析，从中获取有价值信息，变得十分重要。 Hadoop 正是在这
样的背景下产生的， 它提供了一个可靠的共享存储和分析系统。 由于具备低成本和前所未有
的高扩展性，Hadoop已被公认为是新一代的大数据处理平台， 就像 30年前的 SQL出现一样，
Hadoop正带来了新一轮的数据革命。
二、Hadoop相关概念
1、Hadoop简述
Hadoop是 Apache的一个分布式计算开源框架， 它可以运行于大中型集群的廉价硬件设备上，
为应用程序提供了一组稳定可靠的接口。同时它是 Google 集群系统的一个开源项目总称。
底层是 Google 文件系统（ GFS）。
基于 java 语言构建的 Hadoop框架实际上一种分布式处理大数据平台， 其包括软件和众多子
项目。在近十年中 Hadoop已成为大数据革命的中心。
2、其子项目简述：
◎MapReduce 分布式数据处理模型和执行环境，运行于大型商用机集群。
◎HDFS 分布式文件系统，运行于大型商用机集群。
◎Pig 一种数据流语言和运行环境， 用以检索非常大的数据集。 Pig 运行在 MapReduce和 HDFS
的集群上。
◎Hive 一个分布式、 按列存储的数据仓库。 Hive 管理 HDFS中存储的数据， 并提供基于 SQL
的查询语言（由运行时引擎翻译成 MapReduce作业）用以查询数据。
◎ZooKeeper 一个分布式、 可用性高的协调服务。 ZooKeeper 提供分布式锁之类的基本服务
用于构建分布式应用。
◎Sqoop 在数据库和 HDFS之间高效传输数据的工具。
◎Common 一组分布式文件系统和通用 I/O 的组件与接口（序列化、

目录
数据/Hadoop/分布式/存储/运行/系统/HDFS/提供/项目/集群/ 数据/Hadoop/分布式/存储/运行/系统/HDFS/提供/项目/集群/

-1 条回复

登录后才能参与评论