(f)Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
(g)Pig: 大数据分析平台,为用户提供多种接口。
Pig是一个基于Hadoop的大数据分析平台,它提供了一个叫PigLatin的高级语言来表达大数据分析程序。
(h)Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。
对Hadoop集群进行监控和管理的基于Web的系统。目前已经支持HDFS, MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig和Sqoop等组件。
(i)Sqoop:在HADOOP与传统的数据库间进行数据的传递。
Sqoop是一个Hadoop和关系型数据库之间的数据转移工具。可将关系型数据库中的数据导入到Hadoop的HDFS中,也可将HDFS中的数据导进到关系型数据库中。
10、Hadoop1.x与Hadoop2.x的区别:
Hadoop2.x中有两个重要的变更:
(a)HDFS的NameNode可以以集群的方式部署,增强了NameNode的水平扩展能力和可用性
(b)MapReduce将JobTrack中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN
11、Hadoop2.x解决了Hadoop1.x中的哪些问题
(a)2.x解决了1.x中的namenode单点故障问题
(b)解决了namenode内存压力过大难以扩展问题
(c)解决了JobTrack单点故障问题
(d)解决了JobTrack访问压力过大问题
(e)解决了对MapReduce之外的框架支持问题
12、Zeppelin是一个基于web的可视化的大数据分析工具。主要用来进行交互式的数据分析,它可以跟多种大数据分析组件集成在一起,为这些大数据分析组件提供基于浏览器页面的交互式访问功能。
13、Zeppelin的主要用途
1、Data Ingestion(数据摄取)
2、Data Discovery(数据发现)