大家好,今天小编关注到一个比较有意思的话题,就是关于Hadoopyarn书籍推荐的问题,于是小编就整理了3个相关介绍hadoopyarn书籍推荐的解答,让我们一起看看吧。
Hadoop 的架构主要包含哪些组件?
Hadoop的架构主要包含以下组件:
1. Hadoop分布式文件系统(HDFS):Hadoop的基础组件,用于存储和管理大规模数据集的文件系统。
2. Hadoop YARN(Yet Another Resource Negotiator):Hadoop的***管理器,用于调度分布式应用程序的计算***。
3. Hadoop MapReduce:Hadoop的计算框架,用于对大规模数据集进行并行处理和分析。
4. Hadoop Common:Hadoop的公共库和工具,包括支持Hadoop运行和开发的类库和工具。
除了这些核心组件外,Hadoop生态系统还包含一些附加的组件和工具,如Hadoop Hive(数据仓库和查询引擎)、Hadoop HBase(分布式NoSQL数据库)、Hadoop Pig(数据分析平台)等,用于扩展和丰富Hadoop的功能。
Hadoop大数据框架的发展历程?
Hadoop的主要发展历程:
· 2008年1月,Hadoop成为Apache顶级项目。
· 2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。
· 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
· 2009年7月 ,Avro 和 Chukwa 成为Hadoop新的子项目。
· 2010年5月 ,Avro脱离Hadoop项目,成为Apache顶级项目。
· 2010年5月 ,HBase脱离Hadoop项目,成为Apache顶级项目。
· 2010年9月,Hive脱离Hadoop,成为Apache顶级项目。
· 2010年9月,Pig脱离Hadoop,成为Apache顶级项目。
· 2010年-2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性。
Hadoop一般用在哪些业务场景?
Hadoop包含三个组件,yarn,MapReduce,HDFS 。其中 yarn是一个***管理器用来管理集群的***(CPU,内存)。MapReduce 是一个计算框架,适合做大数据离线计算。HDFS 是分布式存储,用来做海量数据存储。
Hadoop 发展这么多年已经衍生了一个非常庞大的生态,单单使用Hadoop (yarn , mapreduce , hdfs)这个大数据组件能做的事情有限,但是结合衍生出来的生态产品(hive,flume,sqoop, hbase , spark)就可以做很多事。比如
- 结合 hive 用来做数据仓库,整合管理整个公司的数据。
- 结合 sqoop 把关系型数据库里的数据抽取到数据仓库,用作后续分析
- 结合 Flume 可以把 kafka , 日志文件 等数据抽取到数据仓库
- 结合 hbase 宽表特性,存储用户画像等信息,同时 hbase 还可用作高并发读数据场景
- 由于MapReduce 计算过程中需要频繁写磁盘,导致运行速度不够快,结合 spark 可以做数据仓库近实时查询,spark 本身提供了机器学习,图计算等算法的实现,可以很方便的做类似的数据挖掘和数据分析
到此,以上就是小编对于hadoopyarn书籍推荐的问题就介绍到这了,希望介绍关于hadoopyarn书籍推荐的3点解答对大家有用。