大数据知识点总结(4)

时间:2021-08-31

  (f)Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

  (g)Pig: 大数据分析平台,为用户提供多种接口。

  Pig是一个基于Hadoop的大数据分析平台,它提供了一个叫PigLatin的高级语言来表达大数据分析程序。

  (h)Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。

  对Hadoop集群进行监控和管理的基于Web的系统。目前已经支持HDFS, MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig和Sqoop等组件。

  (i)Sqoop:在HADOOP与传统的数据库间进行数据的传递。

  Sqoop是一个Hadoop和关系型数据库之间的数据转移工具。可将关系型数据库中的数据导入到Hadoop的HDFS中,也可将HDFS中的数据导进到关系型数据库中。

  10、Hadoop1.x与Hadoop2.x的区别:

  Hadoop2.x中有两个重要的变更:

  (a)HDFS的NameNode可以以集群的方式部署,增强了NameNode的水平扩展能力和可用性

  (b)MapReduce将JobTrack中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN

  11、Hadoop2.x解决了Hadoop1.x中的哪些问题

  (a)2.x解决了1.x中的namenode单点故障问题

  (b)解决了namenode内存压力过大难以扩展问题

  (c)解决了JobTrack单点故障问题

  (d)解决了JobTrack访问压力过大问题

  (e)解决了对MapReduce之外的框架支持问题

  12、Zeppelin是一个基于web的可视化的大数据分析工具。主要用来进行交互式的数据分析,它可以跟多种大数据分析组件集成在一起,为这些大数据分析组件提供基于浏览器页面的交互式访问功能。

  13、Zeppelin的主要用途

  1、Data Ingestion(数据摄取)

  2、Data Discovery(数据发现)