Hadoop教程,Hadoop是一个开源框架,Hadoop允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。Hadoop被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。
Hadoop教程简要介绍了大数据、MapReduce算法和Hadoop分布式文件系统(HDFS)。
Hadoop 定义
狭义
指Hadoop框架, 大数据必备框架, Apache下开源的分布式系统基础框架, 主要解决海量数据的存储和分析计算问题
广义
指Hadoop生态圈, 包含大量用于大数据储存, 管理, 传输, 分析计算的框架
Hadoop的三大发行版本
- Apache版本最原始(最基础)的版本,对于入门学习最好
-
Cloudera在大型互联网企业中用的较多
-
Hortonworks文档较好
Hadoop组成
Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:
- Hadoop Common:支持其他Hadoop模块的常用工具。
-
Hadoop分布式文件系统(HDFS):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
-
Hadoop YARN:作业调度和集群资源管理的框架。
-
Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统。
大数据生态体系
下面对大数据生态体系做一个简单的概述
本教程适合的读者
Hadoop教程程是为有志于学习使用Hadoop框架进行大数据分析的基础知识并成为Hadoop开发人员的专业人士编写的。软件专业人员、分析专业人员和ETL开发人员是本课程的主要受益者。
学习本教程的前置条件
在开始学习本教程之前,我们假设您已经接触过核心Java、数据库概念和任何Linux操作系统风格。